解説

AMI SURPRISED

ねえねえ智也くん!この論文のタイトル、『同じ意味なのにスコアが違う』って書いてあるよ!これって、AIが気分屋だってこと?

TOMOYA NEUTRAL

気分じゃなくて、AIの「弱点」の話だよ。プロンプト、つまりAIへの命令文の言葉をちょっと変えるだけで、正解率がバラバラになっちゃうっていう研究なんだ。

AMI HAPPY

えー!意味が同じなら、賢いAIならちゃんと答えてほしいよね。人間なら「リンゴ」を「赤い果物」って言い換えられても分かるもん!

TOMOYA NEUTRAL

そこがこの論文の面白いところなんだ。今のLLMは、僕たちが思っているほど「意味」を深く理解してなくて、表面的な言葉の並びに頼ってるんじゃないかって疑ってるんだよ。

AMI SURPRISED

表面的な言葉の並び?どういうこと?

TOMOYA NEUTRAL

この研究では、2つの方法で問題を書き換えてる。1つは「語彙的変化」。これは単語を似た意味の別の言葉に変えること。もう1つは「構文的変化」。これは文章の構造、例えば「AがBをした」を「BがAによってされた」みたいに変えることだね。

AMI HAPPY

なるほど!言葉を変えるのと、並び方を変えるのね。どっちがAIを困らせたの?

TOMOYA NEUTRAL

圧倒的に「語彙的変化」、つまり単語の置き換えだよ。23種類もの最新モデルで試したんだけど、単語を変えただけで正解率がガクンと落ちたんだ。一方で、文章の構造を変える方は、そこまで大きな影響はなかったんだよね。

AMI HAPPY

へぇー!AIって意外と単語にこだわりがあるんだね。じゃあ、頭がいい……えっと、サイズが大きいモデルなら、そんなの気にせず正解できるんじゃない?

TOMOYA NEUTRAL

それがそうでもないんだ。モデルが大きくても、言い換えに強いとは限らないっていう結果が出た。つまり、単純に性能を上げれば解決する問題じゃないってことだね。これを「頑健性(ロバスト性)」が低いって言うんだ。

AMI SURPRISED

ロバスト性……なんか強そうな名前!でも、AIのランキングとかで1位のモデルでも、言い方を変えたら順位が入れ替わっちゃうってこと?

TOMOYA NEUTRAL

その通り。この論文では「リーダーボード(順位表)は脆い」って警告してる。ちょっとした言い換えで順位がコロコロ変わるなら、そのランキングをどこまで信じていいか怪しくなるよね。

AMI SAD

それは困るね!これからどうすればいいのかな?

TOMOYA NEUTRAL

これからは、単にテストで何点取れたかだけじゃなくて、言い換えられても正解できるかっていう「タフさ」もセットで評価しなきゃいけない。それが今後の研究の大きな課題だね。

AMI HAPPY

わかった!じゃあ私も、智也くんに「お腹空いた」って言う代わりに「胃袋が虚無を訴えている」って言い換えて、智也くんのロバスト性をテストしてみるね!

TOMOYA NEUTRAL

……それはただの面倒くさい言い換えだよ。普通に言ってくれ。

要点

  • LLMの評価ベンチマークが、意味を変えない程度の表面的な言い換えに対して非常に脆弱であることを明らかにした。
  • 語彙的な変化(類義語への置換)と構文的な変化(能動態から受動態への変更など)の2つの手法でプロンプトを加工し、23種類のモデルで検証した。
  • 実験の結果、語彙的な変化の方が構文的な変化よりも性能を大きく低下させることが分かった。
  • モデルのサイズが大きくなっても、言い換えに対する頑健性(ロバスト性)が必ずしも向上するわけではないことが示された。
  • 現在のLLMは抽象的な言語能力よりも、表面的な単語のパターンに依存して回答している可能性が高い。