TL;DR

Vision-Language Model (VLM) が画像を見て回答を生成する前に、幻覚(事実と異なる記述)を起こすリスクを予測する手法「HALP」が提案されました。VLMの内部表現(視覚特徴、視覚トークン、クエリトークン)を単一のフォワードパスで抽出し、軽量なMLPプローブで幻覚の有無を分類します。生成を待たずに最大0.93 AUROCの検知性能を達成し、早期の中断やルーティングによるシステムの安全性・効率性向上が期待できます。

解説

AMI SURPRISED

ねえねえ、このブログのタイトル見て。『VLMの幻覚を生成前に検知』って。VLMって画像を見て説明するAIでしょ?それが幻覚って、嘘ついちゃうってこと?

TOMOYA NEUTRAL

そう。正確には、事実と異なる記述を生成してしまう現象を「幻覚」って呼ぶんだ。例えば、画像に写ってない物を「ある」と言ったり、色や数を間違えたりする。

AMI HAPPY

それは困るね。で、このHALPってのは、その嘘をつく前に見抜いちゃおうって方法なんだ。どうやってるの?生成するのを待ってたら時間かかるよね?

TOMOYA NEUTRAL

そこがポイントだ。生成を待たない。VLMが画像を処理して、答えを生成し始める前の、内部の状態を見るんだ。具体的には、視覚特徴とか、内部のトークン表現を、一度のフォワードパスで抜き出す。

AMI SURPRISED

内部の状態…?難しそう。で、それをどうするの?

TOMOYA NEUTRAL

抜き出した内部表現に、軽量なMLP、つまり小さなニューラルネットワークのプローブをかける。それで「この質問には幻覚を起こしそうだ」かどうかを分類する。全部生成前に終わるから、効率的なんだ。

AMI HAPPY

へえ!で、実際うまくいくの?

TOMOYA NEUTRAL

評価結果では、最大でAUROCが0.93だった。これはかなり高い検知性能だ。幻覚を起こしそうなクエリを事前に検知できれば、生成を早期に中断したり、別の信頼できるシステムに回したりできる。安全性と効率が上がる。

AMI SURPRISED

すごい!じゃあこれでVLMの嘘は全部バレちゃうんだ。でも、何か弱点とかあるの?

TOMOYA NEUTRAL

ある。プローブの訓練には、幻覚の有無がラベル付けされたデータが必要だ。あくまで「検知」であって「修正」ではないから、検知した後どう処理するかは別の仕組みが必要になる。

AMI HAPPY

なるほど…。でも、嘘つきそうなやつを事前にピンポイントで炙り出せるってのは、すごく役立ちそうだね。AIにも良心の呵責みたいなものを埋め込む第一歩かも!

TOMOYA NEUTRAL

…その比喩は少し違う。単に確率を計算してるだけだ。