TL;DR

顔に見える物体(パレイドリア)画像を用いて、CLIP/LLaVAなどのVLM、ViT、YOLO、顔検出器の6モデルを評価。VLMは曖昧な領域を「人間」と過剰解釈する傾向が強く、ViTは不確実性を保持、検出器は強い事前分布で反応を抑制。曖昧さへの振る舞いはモデルの表現構造に強く依存し、不確実性とバイアスは独立した次元であることが示された。

解説

AMI HAPPY

ねえねえ、このブログのタイトル見て。顔の錯視でAIを評価したんだって。面白そう!

TOMOYA NEUTRAL

ああ、パレイドリアを使った研究だね。壁の染みとかが顔に見えるあれ。AIがどう反応するか調べてる。

AMI SURPRISED

なんでそんなこと調べようと思ったの?

TOMOYA NEUTRAL

動機は、AIが曖昧な視覚情報をどう処理するか知りたかったから。特に、人間が「顔に見えるかも」と思うような、はっきりしない画像に対してだ。

AMI NEUTRAL

ふーん。で、どうやって調べたの?

TOMOYA NEUTRAL

顔のパレイドリア画像を集めて、CLIPやLLaVAみたいなVLM、ViT、YOLO、専用の顔検出器、全部で6種類のモデルに入力した。それぞれの出力を分析したんだ。

AMI SURPRISED

結果は?

TOMOYA NEUTRAL

評価結果はモデルによって全然違った。VLM、特にLLaVAは、曖昧な領域をすぐに「人間」とか過剰に解釈する傾向が強かった。

AMI SURPRISED

え、なんで?

TOMOYA NEUTRAL

VLMは言語モデルと結合してるから、画像の曖昧な部分を文脈で埋めようとして、強いバイアスがかかるんだと思う。一方で、ViTは不確実性をある程度保持してた。

AMI NEUTRAL

顔検出器は?

TOMOYA NEUTRAL

顔検出器は、顔か顔じゃないかにはっきりした事前分布を持ってるから、曖昧な画像にはほとんど反応しなかった。抑制が効いてる感じだ。

AMI NEUTRAL

この結果って、何が重要なの?

TOMOYA NEUTRAL

意義は、モデルが曖昧さにどう反応するかは、そのアーキテクチャや学習方法に強く依存するってこと。それに、不確実性とバイアスは別物だって示された。VLMは不確実性をバイアスで埋めてしまう。

AMI NEUTRAL

なるほど。でも、限界とかはあるんでしょ?

TOMOYA NEUTRAL

そうだね。使ったパレイドリア画像の数や種類に限りがある。あと、人間の主観的な「顔に見える度合い」との厳密な比較はしてない。もっと広範な評価が必要だ。

AMI HAPPY

へえー。つまり、AIも人間みたいに、壁の染みに顔を見ちゃうことがあるってこと?なんだか親近感湧いちゃうかも!

TOMOYA NEUTRAL

…過剰に擬人化するのは、また別のバイアスだよ。