AIは言葉のあやに弱い？言い換え一つでランキングがひっくり返る衝撃の事実

2月 23 2026

解説

ねえねえ智也くん！この論文のタイトル、『同じ意味なのにスコアが違う』って書いてあるよ！これって、AIが気分屋だってこと？

気分じゃなくて、AIの「弱点」の話だよ。プロンプト、つまりAIへの命令文の言葉をちょっと変えるだけで、正解率がバラバラになっちゃうっていう研究なんだ。

えー！意味が同じなら、賢いAIならちゃんと答えてほしいよね。人間なら「リンゴ」を「赤い果物」って言い換えられても分かるもん！

そこがこの論文の面白いところなんだ。今のLLMは、僕たちが思っているほど「意味」を深く理解してなくて、表面的な言葉の並びに頼ってるんじゃないかって疑ってるんだよ。

表面的な言葉の並び？どういうこと？

この研究では、2つの方法で問題を書き換えてる。1つは「語彙的変化」。これは単語を似た意味の別の言葉に変えること。もう1つは「構文的変化」。これは文章の構造、例えば「AがBをした」を「BがAによってされた」みたいに変えることだね。

なるほど！言葉を変えるのと、並び方を変えるのね。どっちがAIを困らせたの？

圧倒的に「語彙的変化」、つまり単語の置き換えだよ。23種類もの最新モデルで試したんだけど、単語を変えただけで正解率がガクンと落ちたんだ。一方で、文章の構造を変える方は、そこまで大きな影響はなかったんだよね。

へぇー！AIって意外と単語にこだわりがあるんだね。じゃあ、頭がいい……えっと、サイズが大きいモデルなら、そんなの気にせず正解できるんじゃない？

それがそうでもないんだ。モデルが大きくても、言い換えに強いとは限らないっていう結果が出た。つまり、単純に性能を上げれば解決する問題じゃないってことだね。これを「頑健性（ロバスト性）」が低いって言うんだ。

ロバスト性……なんか強そうな名前！でも、AIのランキングとかで1位のモデルでも、言い方を変えたら順位が入れ替わっちゃうってこと？

その通り。この論文では「リーダーボード（順位表）は脆い」って警告してる。ちょっとした言い換えで順位がコロコロ変わるなら、そのランキングをどこまで信じていいか怪しくなるよね。

それは困るね！これからどうすればいいのかな？

これからは、単にテストで何点取れたかだけじゃなくて、言い換えられても正解できるかっていう「タフさ」もセットで評価しなきゃいけない。それが今後の研究の大きな課題だね。

わかった！じゃあ私も、智也くんに「お腹空いた」って言う代わりに「胃袋が虚無を訴えている」って言い換えて、智也くんのロバスト性をテストしてみるね！

……それはただの面倒くさい言い換えだよ。普通に言ってくれ。

投稿日:AI