AIの「目の泳ぎ」を波でキャッチ！嘘を瞬時に見抜く新技術がすごい

2月 24 2026

解説

ねえねえ智也くん！この「周波数でハルシネーションを見抜く」っていう論文、タイトルがかっこよくない？AIがラジオみたいにチューニングでもしてるの？

ラジオとはちょっと違うけど、考え方は近いかもしれないね。これはLLMがつく「もっともらしい嘘」、つまりハルシネーションをどうやって見つけるかっていう研究だよ。

ハルシネーションかぁ。AIが自信満々に嘘をつくやつだよね。でも、それを「周波数」でどうやって見抜くの？

まず、LLMが文章を作る時に、入力された情報のどこに注目しているかを示す「アテンション」っていう仕組みがあるんだ。普通、正しい情報を参照している時は、その注目先が安定している。でも、嘘をつく時はその注目先がフラフラして、あちこちに飛び散る傾向があるんだよ。

あ、わかった！嘘をついてる時に目が泳いじゃう人みたいな感じだね！

……まあ、例えとしては悪くないかな。その「目の泳ぎ」を、数学的に「信号の揺れ」として捉えるのがこの論文の面白いところなんだ。アテンションの動きを波として見て、その波が細かくギザギザしている、つまり「高周波」な成分が多い時にハルシネーションだと判定するんだよ。

なるほど！でも、その「ギザギザ」をどうやって取り出すの？

ここで信号処理の技術を使うんだ。離散フーリエ変換（DFT）や離散ウェーブレット変換（DWT）っていう手法を使って、アテンションの波を「ゆっくりした変化」と「急激な変化」に分解する。急激な変化、つまり高周波成分のエネルギーが大きいほど、AIの「注目」が不安定で、嘘をついている可能性が高いってわけだ。

フーリエ変換……なんか難しそうだけど、要するに波をバラバラにして、怪しい震えがないかチェックするってことだね！

そうだね。この手法のいいところは、LLMの内部にあるアテンションの数値を見るだけだから、すごく動作が軽いんだ。わざわざ別のAIに「この回答は合ってる？」って聞き直す必要がないからね。

それってすごそう！実際に試してみた結果はどうだったの？

RAGTruthっていう、ハルシネーション検出の有名なテストセットで実験したんだけど、既存のどの手法よりも高い精度で嘘を見抜けたらしいよ。特に、文脈に基づいた回答が求められるタスクで強いんだ。

へぇー！じゃあ、これからAIが嘘をつかなくなる未来が来るのかな？

嘘を「見抜く」技術が進めば、それを元に「嘘をつかないように修正する」こともできるようになるだろうね。ただ、まだ課題もある。アテンションが複雑すぎて、なぜ特定の層で揺れが起きるのか、そのメカニズムが完全に解明されたわけじゃないんだ。

そっか、AIの心の中はまだまだ謎だらけなんだね。でも、周波数で嘘がバレるなら、私も智也くんに隠れてお菓子食べたの、周波数でバレちゃうかも！

亜美さんの場合は、周波数を見るまでもなく顔に出てるから大丈夫だよ。……というか、僕のプリン食べたの君だったのか。

LLMが与えられた文脈に基づかない「もっともらしい嘘（ハルシネーション）」をつく問題を、生成時の内部信号である「アテンション」から検出する手法を提案。
アテンションの重み分布を「離散信号」として捉え、信号処理の視点から分析。ハルシネーションが発生する際、アテンションが特定の箇所に安定せず、激しく変動（高周波な揺れ）することを発見した。
離散フーリエ変換 (DFT) や離散ウェーブレット変換 (DWT) を用いて、アテンション信号から高周波成分を抽出。この「エネルギー量」を指標にすることで、軽量なハルシネーション検出器を構築した。
RAGTruthやHalluRAGといったベンチマークで実験を行い、外部知識を用いた検証手法や、既存のアテンション解析手法よりも高い精度でハルシネーションを特定できることを示した。
モデルの内部状態のみを利用するため、追加の検索や大規模な再計算が不要であり、リアルタイムでの信頼性向上に寄与する可能性がある。

投稿日:AI