解説

AMI HAPPY

ねえねえ智也くん!この『ABCD』ってタイトルの論文、アルファベットの練習でもしてるの?

TOMOYA NEUTRAL

いや、これは『All Biases Come Disguised(すべてのバイアスは変装してやってくる)』の略だよ。AIがテストを受ける時に、実は内容を理解せずに「ズル」をしてるんじゃないかっていう研究なんだ。

AMI SURPRISED

えっ、AIがカンニング!?隣の席のAIの画面を覗き見してるとか?

TOMOYA NEUTRAL

そんなわけないだろ。ここで言う「ズル」っていうのは、問題の内容じゃなくて、選択肢の並び順とか「A、B、C、D」っていうラベルの癖を読み取っちゃうことなんだ。これを「バイアス」って呼ぶんだよ。

AMI HAPPY

あー、テストで「迷ったらCにしろ」みたいなやつ?AIもそんなこと考えるんだ!

TOMOYA NEUTRAL

そう、まさにそれ。この論文では、それを証明するために『NonsenseQA』っていう、めちゃくちゃな単語が並んでるだけの意味不明なテストをAIに受けさせたんだ。

AMI SURPRISED

意味不明なテスト?「りんご・ゴリラ・ラッパ」みたいな?

TOMOYA NEUTRAL

もっとひどいよ。完全にランダムな単語の羅列。人間が見たら絶対に正解なんてわからないのに、一部のAIは95%以上の精度で「正解」を当てちゃったんだ。これは、問題文を読んでるんじゃなくて、直前の例題(フューショット・プロンプト)の正解のパターンを真似してるだけだって証拠だね。

AMI SURPRISED

すごーい!……じゃなくて、それじゃあ本当の実力がわからないじゃん!どうすればいいの?

TOMOYA NEUTRAL

そこで著者が提案したのが『Matched-and-Dashed (M&D)』っていう方法。まず、選択肢の「A」とか「B」っていうラベルを全部「-(ダッシュ)」に変えちゃうんだ。これで「Aが正解になりやすい」みたいなラベルのバイアスを消す。

AMI NEUTRAL

ラベルを全部同じにしちゃうの?じゃあどうやって答えるの?「棒のやつが正解です!」って言うの?

TOMOYA NEUTRAL

いや、AIには「答えの文章をそのまま全部書いて」って命令するんだ。で、AIが書いた文章と、元の選択肢の文章を『文埋め込みモデル』っていうのを使って、意味がどれくらい似ているか(セマンティック・シミラリティ)で判定するんだよ。

AMI NEUTRAL

なるほど!記号じゃなくて、ちゃんと中身で勝負させるってことね。でも、それって判定が難しくない?

TOMOYA NEUTRAL

最近のAI技術を使えば、多少言い回しが違っても意味が同じかどうかは高精度で判定できるから大丈夫。実験の結果、この方法だと選択肢の順番を入れ替えてもスコアが安定して、バイアスに惑わされにくくなったんだ。スコアのバラつきが3分の1まで減ったんだよ。

AMI HAPPY

3分の1!それはすごいね。これからはこの方法がテストのスタンダードになるのかな?

TOMOYA NEUTRAL

そうだね。AIの本当の知能を測るためには、こういう「見えないバイアス」を排除した評価が不可欠になるはずだ。ただ、計算時間が少しだけ増えるっていう課題もあるけど、精度のためなら許容範囲内だね。

AMI HAPPY

よーし、私も次のテストは全部「-」で答えて、先生に「私の真の実力を測ってください!」って言ってみる!

TOMOYA NEUTRAL

それはただの白紙答案で0点にされるだけだろ。勉強しろ。

要点

  • LLMが多肢選択式問題(MCQ)を解く際、内容ではなく選択肢の順番やラベル(A, B, C, D)、例題の正解分布などの「バイアス」に依存して回答している問題を指摘。
  • 意味のないランダムな単語で構成された「NonsenseQA」というデータセットを開発し、モデルが内容を理解せずパターンだけで正解(のように見えるもの)を選んでいることを証明した。
  • 新しい評価プロトコル「Matched-and-Dashed (M&D)」を提案。選択肢のラベルをすべて「-」に統一し、モデルに回答の全文を生成させ、意味の類似度で判定する手法。
  • M&D手法を用いることで、回答の選択肢を入れ替えた際のスコアの変動(分散)を3分の1に抑え、モデルの真の能力をより正確に測定できるようになった。