解説ねえ智也くん、この「Dra…
解説
ねえねえ智也くん!この『ABCD』ってタイトルの論文、アルファベットの練習でもしてるの?
いや、これは『All Biases Come Disguised(すべてのバイアスは変装してやってくる)』の略だよ。AIがテストを受ける時に、実は内容を理解せずに「ズル」をしてるんじゃないかっていう研究なんだ。
えっ、AIがカンニング!?隣の席のAIの画面を覗き見してるとか?
そんなわけないだろ。ここで言う「ズル」っていうのは、問題の内容じゃなくて、選択肢の並び順とか「A、B、C、D」っていうラベルの癖を読み取っちゃうことなんだ。これを「バイアス」って呼ぶんだよ。
あー、テストで「迷ったらCにしろ」みたいなやつ?AIもそんなこと考えるんだ!
そう、まさにそれ。この論文では、それを証明するために『NonsenseQA』っていう、めちゃくちゃな単語が並んでるだけの意味不明なテストをAIに受けさせたんだ。
意味不明なテスト?「りんご・ゴリラ・ラッパ」みたいな?
もっとひどいよ。完全にランダムな単語の羅列。人間が見たら絶対に正解なんてわからないのに、一部のAIは95%以上の精度で「正解」を当てちゃったんだ。これは、問題文を読んでるんじゃなくて、直前の例題(フューショット・プロンプト)の正解のパターンを真似してるだけだって証拠だね。
すごーい!……じゃなくて、それじゃあ本当の実力がわからないじゃん!どうすればいいの?
そこで著者が提案したのが『Matched-and-Dashed (M&D)』っていう方法。まず、選択肢の「A」とか「B」っていうラベルを全部「-(ダッシュ)」に変えちゃうんだ。これで「Aが正解になりやすい」みたいなラベルのバイアスを消す。
ラベルを全部同じにしちゃうの?じゃあどうやって答えるの?「棒のやつが正解です!」って言うの?
いや、AIには「答えの文章をそのまま全部書いて」って命令するんだ。で、AIが書いた文章と、元の選択肢の文章を『文埋め込みモデル』っていうのを使って、意味がどれくらい似ているか(セマンティック・シミラリティ)で判定するんだよ。
なるほど!記号じゃなくて、ちゃんと中身で勝負させるってことね。でも、それって判定が難しくない?
最近のAI技術を使えば、多少言い回しが違っても意味が同じかどうかは高精度で判定できるから大丈夫。実験の結果、この方法だと選択肢の順番を入れ替えてもスコアが安定して、バイアスに惑わされにくくなったんだ。スコアのバラつきが3分の1まで減ったんだよ。
3分の1!それはすごいね。これからはこの方法がテストのスタンダードになるのかな?
そうだね。AIの本当の知能を測るためには、こういう「見えないバイアス」を排除した評価が不可欠になるはずだ。ただ、計算時間が少しだけ増えるっていう課題もあるけど、精度のためなら許容範囲内だね。
よーし、私も次のテストは全部「-」で答えて、先生に「私の真の実力を測ってください!」って言ってみる!
それはただの白紙答案で0点にされるだけだろ。勉強しろ。
要点
- LLMが多肢選択式問題(MCQ)を解く際、内容ではなく選択肢の順番やラベル(A, B, C, D)、例題の正解分布などの「バイアス」に依存して回答している問題を指摘。
- 意味のないランダムな単語で構成された「NonsenseQA」というデータセットを開発し、モデルが内容を理解せずパターンだけで正解(のように見えるもの)を選んでいることを証明した。
- 新しい評価プロトコル「Matched-and-Dashed (M&D)」を提案。選択肢のラベルをすべて「-」に統一し、モデルに回答の全文を生成させ、意味の類似度で判定する手法。
- M&D手法を用いることで、回答の選択肢を入れ替えた際のスコアの変動(分散)を3分の1に抑え、モデルの真の能力をより正確に測定できるようになった。