AIの「忖度」をやめさせる？嘘の指示に騙されないための脳外科手術

1月 10 2026

解説

ねえねえ智也くん！この『プロンプト誘発型ハルシネーションのメカニズム』っていう論文、タイトルがかっこいいね！これってどういう意味なの？

ああ、それはVLM、つまり画像と文字を両方理解できるAIが、人間の「嘘のヒント」に騙されちゃう現象を調べた研究だよ。

AIが騙される？AIって頭が良いんじゃないの？

実はそうでもないんだ。例えば、画像にはスイレンが3つしかないのに、人間が「この4つのスイレンについて説明して」ってプロンプトで指示すると、AIは「はい、4つありますね」って嘘をついちゃうことがあるんだよ。

ええー！それってAIが人間に忖度してるってこと？空気が読めるんだね！

空気を読んでるというか、視覚情報よりも文字情報を優先しちゃうバグみたいなものだね。これを「プロンプト誘発型ハルシネーション（PIH）」と呼んでいるんだ。この論文では、特に「数え上げ」でそれがどう起きるかを調べているよ。

数え上げ？1、2、3……って数えるやつ？

そう。面白いことに、物体が2つか3つの時はAIも騙されにくいんだけど、5つ以上になると、プロンプトで嘘の数字を言われたらコロッと騙されちゃうんだ。自分の自信がなくなると、人間の言うことを鵜呑みにしちゃうみたいだね。

わかる！私もテストで自信がないとき、隣の人の答えを信じちゃうもん！それで、どうやって解決するの？

この論文のすごいところは、AIの「脳」の中にある特定の部分が犯人だって突き止めたことなんだ。AIの中には「アテンションヘッド」っていう、情報のどこに注目するかを決める小さなユニットがたくさんあるんだけど……。

アテンションヘッド？AIの脳細胞みたいなものかな？

まあ、そんなイメージでいいよ。その数千個あるヘッドの中から、プロンプトの嘘をコピーして出力に繋げちゃう「PIHヘッド」を数個だけ見つけ出したんだ。そして、そのヘッドを「アブレーション」、つまり一時的に機能をオフにしてみたんだよ。

えっ、手術しちゃうの！？それでAIはバカにならないの？

それが、普通の数え上げ能力はそのままなのに、プロンプトの嘘に騙される確率だけがガクンと減ったんだ。最大で54%も改善したらしいよ。しかも、色を間違えて教える別のテストでも、同じヘッドをオフにするだけで効果があったんだって。

すごーい！ピンポイントで嘘つきな性格だけ直したみたい！

そうだね。しかもこのPIHヘッドは、モデルのかなり初期の層で見つかったんだ。つまり、AIが画像をじっくり見る前に、文字情報だけで「あ、4つあるんだな」って決めつけちゃってる可能性があることも分かった。

なるほどね。じゃあ、これからはAIに嘘をついても無駄ってことだ！

この研究が進めば、より信頼できるAIが作れるようになるはずだよ。ただ、今回は特定のタスクだけだし、全てのハルシネーションがこれで消えるわけじゃない。どうしてそのヘッドが嘘を運ぶようになるのか、もっと深い理由を探る必要があるね。

智也くん、私の頭の中にも「お菓子を食べたいヘッド」がある気がするから、ダイエットのためにアブレーションしてよ！

亜美さんの場合は、ヘッドをオフにする前に、まず自分の意志の弱さをどうにかしたほうがいいと思うよ。

Vision-Language Model (VLM) が、画像の内容よりもプロンプトの誤った情報を優先して回答してしまう「プロンプト誘発型ハルシネーション (PIH)」という現象を分析した。
物体の数え上げタスクにおいて、画像内の物体数が増えるほど、モデルはプロンプトの誤った数字に合わせる（忖度する）傾向が強くなることを明らかにした。
モデル内部の特定の「アテンションヘッド」がこのハルシネーションを媒介していることを突き止め、そのヘッドを無効化（アブレーション）することで、再学習なしにハルシネーションを最大54%削減することに成功した。
このPIHを引き起こすヘッドは主にモデルの初期層に集中しており、異なるVLM間でも共通の言語モデルを使っていれば同じヘッドが機能していることが分かった。

投稿日:AI