AI先生はもう嘘をつかない？公平で正確な採点を実現する新技術『RULERS』

1月 15 2026

解説

ねえねえ智也くん！この『RULERS』っていう論文、面白そう！AIが定規を持って何かを測る話なの？

いや、物理的な定規の話じゃないよ。これはAIに作文や要約を採点させるとき、どうすれば人間みたいに正確で公平な『物差し』を持たせられるかっていう研究なんだ。

へぇー、AI先生がテストを採点してくれるんだ！でも、AIって時々適当なこと言わない？私の日記を褒めてくれたと思ったら、次の日にはダメ出ししてきたりして。

まさにそこが問題なんだ。今のAI評価には3つの弱点がある。1つは指示の書き方で結果が変わる『不安定さ』、2つ目は根拠がないのに点数をつける『嘘つき問題』、3つ目は点数の付け方が人間とズレる『分布の不一致』だね。

わかる！気分屋の先生みたいで困るよね。それをどうやって解決するの？

この論文が提案した『RULERS』は、3つのステップで解決するんだ。まずステップ1は『ルーブリックの固定化』。ルーブリックっていうのは採点基準のことだけど、これをAIが勝手に解釈できないように、プログラムみたいなJSON形式にガチガチに固めちゃうんだよ。

ガチガチに固める……。AIが「今日はこの基準でいっか〜」ってサボるのを許さないってことだね！

そう。次にステップ2が『証拠に基づいたプロトコル』だ。AIに点数をつけさせる前に、必ず本文から「ここが証拠です」っていう引用を抜き出させる。もし証拠が見つからないのに高い点数をつけようとしたら、システムが強制的に減点する仕組みなんだ。

えっ、厳しい！「なんとなく良い感じだから100点！」は通用しないんだね。証拠がないとダメなんて、まるで探偵さんみたい！

そしてステップ3が『スコアの調整』。AIは甘口だったり辛口だったりするから、ワッサースタイン距離っていう数学的な手法を使って、AIの点数分布を人間の採点基準にぴったり合わせるんだよ。

ワッサ……何？難しいけど、要するにAIの「甘口・辛口」を人間に合わせてチューニングするってことかな？

その通り。この方法を試したら、Llama-3-8Bっていう比較的サイズの小さいAIでも、あの有名なGPT-4oと同じくらい正確に採点できるようになったんだ。人間との一致度もすごく高い。

すごーい！小さいAIでも賢い先生になれるんだね。これがあれば、学校の先生も楽になるんじゃない？

そうだね。公平で透明性が高いから、教育現場や企業の採用試験なんかでも信頼して使えるようになる可能性がある。ただ、最初の採点基準を作るのはまだ人間だし、調整用のデータも少し必要っていう課題はあるけどね。

なるほど〜。じゃあ、私の「おやつの食べ過ぎチェック」もRULERSで厳しく採点してもらおうかな！証拠として空き袋を提出するね！

それは採点するまでもなく、ただの食べ過ぎだろ。証拠隠滅する前に反省しろよ。

投稿日:AI