ねえ智也くん、この論文のタイト…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『チーズバーガーを食べるベジタリアン、メアリー:LLMは物語の矛盾を認識できるか?』って。すごく気になる!何の話?

ああ、その論文か。要するに、最近のAIが、物語の中の「つじつまが合わない部分」をちゃんと見抜けるのかどうかを調べた研究だよ。

つじつまが合わない?例えばどんなの?

論文のタイトルそのままだけど、「メアリーは10年間厳格なベジタリアンです」って紹介されたキャラクターが、後で「メアリーはチーズバーガーとフライドポテトを注文しました」って行動するような話だ。人間なら「あれ?おかしいな」って思うよね。

あー、確かに!それ、変だよね。で、AIはそれが変だってわかるの?

そこがこの研究の肝なんだ。調べ方は二段階あってね。まず、AIの「内部」をのぞいてみる。AIが文章を読むとき、次に来る単語の予測確率とか、内部の神経ネットワークの状態を調べるんだ。

内部をのぞく…なんか医療検査みたい。で、どうだったの?

面白いことに、内部を調べると、AIは矛盾している部分で、確かに「ん?」って反応してるような痕跡が見つかった。特に、「砂漠で雨が降る」みたいな、世界の常識に反する出来事には、強く反応してた。

え、じゃあAIも矛盾に気づいてるってこと?すごいじゃん!

ところがどっこい。次に、AIに直接「この物語の一貫性を5段階で評価して」とか「この話はつじつまが合ってる?○か×で答えて」って質問してみたんだ。

それで?ちゃんと「×」って答えた?

これが、ほとんどのAIが、一貫性のある話とない話を、きちんと区別して評価できなかったんだ。内部では気づいているそぶりを見せているのに、質問されると正しく答えられない。この「乖離」が最大の発見だ。

えー!なんでそんなことになるの?頭ではわかってるのに、口に出せないみたいな?

そういうイメージだね。論文では、AIが「なぜ」そうなるかのヒントも見つけていて…。さっき言った「砂漠で雨」みたいな設定と出来事の矛盾には敏感に反応するけど、「ベジタリアンがチーズバーガー」みたいな、キャラクターの性格と行動の矛盾には、あまり敏感じゃない傾向があったんだ。

なるほど…。砂漠で雨が降るのは、AIが学習した大量のデータの中に「砂漠=雨が少ない」って知識が強くあるから、すぐ気づく。でも、メアリーがベジタリアンかどうかは、この短い物語の中でしか定義されてないから、見落としちゃうのかな?

鋭いね。論文でも似たようなことを言っているよ。AIは、事前に学んだ世界の一般的な知識(プロトタイプ)には強く依存するけど、目の前の物語の中で少しずつ構築されていく「意味的な一貫性」を、人間のように動的に追跡・理解するのは苦手なのかもしれない。

この研究って、すごく大事なこと言ってる気がする。だって、AIが物語を理解できないってことは、例えばAIに作文を添削してもらったり、創作を手伝ってもらうときに、変なところを見逃しちゃうかもしれないってことだよね?

その通り。教育やコンテンツ作成の支援ツールとしてAIを使うなら、こういう「理解の限界」をきちんと把握しておかないと危ない。この研究は、AIの能力を過信しないための、重要なチェックリストを提供してくれてるんだ。

でも、将来はもっと賢くなるんでしょ?

もちろん、これが最終結論じゃない。この研究で使った「対になった物語」のデータセットは、これからAIの物語理解力を測るための良い物差しになる。もっと長い物語や、複雑な人間関係を追跡できるか、どうやったら内部の気づきを外部に正しく出力できるか、これから研究が進むはずだ。

ふーん、わかった!…ってことは、今のAIに「私、実はチーズが大嫌いなんだよね」って自己紹介してから、しばらくして「このチーズケーキ美味しい!」って言っても、怒られないってこと?

…お前、それただのワガママだろ。AIの研究と関係ない。
要点
この論文は、大規模言語モデル(LLM)が物語の一貫性(コヒーレンス)をどれだけ理解・認識できるかを調査したものです。
人間の読解研究で使われる「対になった物語」(一貫性のあるバージョンとないバージョン)を用いて、LLMの内部表現と外部応答の両方を分析しました。
内部的な指標(トークンの確率や隠れ状態のプロービング)では、LLMは一貫性のない部分をある程度検出できました。特に、物語の設定に反する出来事(例:砂漠で雨が降る)には敏感でした。
しかし、外部からの指示(例:「この物語の一貫性を評価してください」)に対して、LLMは一貫性のある物語とない物語を明確に区別して評価することができませんでした。
さらに、登場人物の設定された性格に反する行動(例:ベジタリアンのメアリーがチーズバーガーを注文する)よりも、物語の設定に反する出来事の方に、LLMはより敏感に反応するという非対称性が見られました。これは、LLMが一般的な世界知識に依存し、物語内で構築される意味的な一貫性を完全には捉えきれていない可能性を示唆しています。
この内部表現と外部応答の間の乖離は、LLMが物語の一貫性を完全に理解しているとは言えないことを示しており、特に教育や創作支援などの応用における信頼性に疑問を投げかけます。