要点テキストから画像を生成する…
解説
ねえねえ智也くん!この『RULERS』っていう論文、面白そう!AIが定規を持って何かを測る話なの?
いや、物理的な定規の話じゃないよ。これはAIに作文や要約を採点させるとき、どうすれば人間みたいに正確で公平な『物差し』を持たせられるかっていう研究なんだ。
へぇー、AI先生がテストを採点してくれるんだ!でも、AIって時々適当なこと言わない?私の日記を褒めてくれたと思ったら、次の日にはダメ出ししてきたりして。
まさにそこが問題なんだ。今のAI評価には3つの弱点がある。1つは指示の書き方で結果が変わる『不安定さ』、2つ目は根拠がないのに点数をつける『嘘つき問題』、3つ目は点数の付け方が人間とズレる『分布の不一致』だね。
わかる!気分屋の先生みたいで困るよね。それをどうやって解決するの?
この論文が提案した『RULERS』は、3つのステップで解決するんだ。まずステップ1は『ルーブリックの固定化』。ルーブリックっていうのは採点基準のことだけど、これをAIが勝手に解釈できないように、プログラムみたいなJSON形式にガチガチに固めちゃうんだよ。
ガチガチに固める……。AIが「今日はこの基準でいっか〜」ってサボるのを許さないってことだね!
そう。次にステップ2が『証拠に基づいたプロトコル』だ。AIに点数をつけさせる前に、必ず本文から「ここが証拠です」っていう引用を抜き出させる。もし証拠が見つからないのに高い点数をつけようとしたら、システムが強制的に減点する仕組みなんだ。
えっ、厳しい!「なんとなく良い感じだから100点!」は通用しないんだね。証拠がないとダメなんて、まるで探偵さんみたい!
そしてステップ3が『スコアの調整』。AIは甘口だったり辛口だったりするから、ワッサースタイン距離っていう数学的な手法を使って、AIの点数分布を人間の採点基準にぴったり合わせるんだよ。
ワッサ……何? 難しいけど、要するにAIの「甘口・辛口」を人間に合わせてチューニングするってことかな?
その通り。この方法を試したら、Llama-3-8Bっていう比較的サイズの小さいAIでも、あの有名なGPT-4oと同じくらい正確に採点できるようになったんだ。人間との一致度もすごく高い。
すごーい!小さいAIでも賢い先生になれるんだね。これがあれば、学校の先生も楽になるんじゃない?
そうだね。公平で透明性が高いから、教育現場や企業の採用試験なんかでも信頼して使えるようになる可能性がある。ただ、最初の採点基準を作るのはまだ人間だし、調整用のデータも少し必要っていう課題はあるけどね。
なるほど〜。じゃあ、私の「おやつの食べ過ぎチェック」もRULERSで厳しく採点してもらおうかな!証拠として空き袋を提出するね!
それは採点するまでもなく、ただの食べ過ぎだろ。証拠隠滅する前に反省しろよ。
要点
- AIを評価者として使う「LLM-as-a-Judge」において、採点基準のブレ、根拠のない回答、スコア分布のズレという3つの課題を特定した。
- 新手法「RULERS」は、自然言語の評価基準を不変のJSON形式に変換(コンパイル)して固定することで、AIの気まぐれな解釈を防ぐ。
- 本文から直接引用した証拠(エビデンス)を必須とし、証拠が足りない場合は自動的に減点する仕組みを導入して信頼性を確保した。
- ワッサースタイン距離を用いた事後調整により、AIのスコア分布を人間の採点基準に正確に一致させる。
- 実験の結果、Llama-3-8Bのような小規模なモデルでも、GPT-4oなどの巨大なモデルに匹敵、あるいは凌駕する精度で人間と一致する採点が可能になった。