AIが「数えられない」意外な理由は人間のクセにあった！？データを増やしても解決しない「報告バイアス」の正体

3月 01 2026

解説

ねえねえ、智也くん！これ、面白そうな論文のタイトル見つけたんだけど…『Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning』…うーん、難しい！何が書いてあるの？

ああ、それか。簡単に言うと、画像を説明するAIが、数を数えたり、左右の関係を理解したりするのが苦手な「根本的な理由」を探った研究だよ。

根本的な理由？AIってデータをいっぱい食べさせれば賢くなるんじゃないの？

それが、この論文の一番面白いところだ。データをただ増やしてもダメなんだ。問題はデータそのものの「偏り」にある。これを「報告バイアス」って呼んでいる。

報告バイアス？なんか聞いたことあるような…でも、画像のデータにどう関係するの？

例えば、亜美さんがSNSに野球の試合の写真を上げるとするよ。「今日の試合！」ってキャプションつけるよね？

うん、するする！

でも、AIに「写真の中に人は何人いる？」とか「バッターはボールの左にいる？右にいる？」って聞かれたら、答えられないよね？

あ、そっか。私のキャプションにはそんな細かい情報、書いてないもんね。だって見ればわかるし、書くの面倒くさいし！

そう。これが報告バイアスだ。人間はコミュニケーションする時、「当たり前すぎる情報」や「文脈からわかる情報」を省略する。AIはその省略されたデータで学習するから、空間（左右）、時間（前後）、否定（〜ではない）、数え上げ（何個）といった推論がどうしても苦手になる。

なるほど！でも、データをめちゃくちゃ集めれば、その中にたまには細かく書いてあるものも混ざって、AIも学べるんじゃないの？

そこを検証したのがこの論文の肝なんだ。LAIONっていう数十億規模のデータセットを調べたら、空間関係を本当に表しているデータはたったの0.1%しかなかった。いくらデータを増やしても、人間の「省略する」という根本的な行動は変わらないから、必要な情報の割合は増えない。

えー！じゃあ、もうAIに推論は無理ってこと？

そうでもない。論文では、解決のヒントも示している。データを集める時に、「写真の中の物を数えてください」とか「左にあるものを説明してください」って具体的に指示を出して集めると、ちゃんと推論能力が上がるんだ。

つまり、量じゃなくて、質が大事ってこと？

その通り。これからのAI開発は、ただスクレイピングでデータをかき集めるんじゃなくて、何を学んでほしいかを考えて、意図的にデータを設計する「データキュレーション」が重要になるってことだね。

すごい…AIの弱点の原因が、私たち人間のコミュニケーションのクセにあったなんて！

そうだね。この研究は、AIの限界を技術的な問題としてだけじゃなく、人間の認知や言語の側面から説明した点が大きい。これからは言語学や認知科学の知識も必要になってくるかもね。

ふーん…じゃあ、私がいつも適当につけてるSNSのキャプションが、AIをバカにしてたってこと？ごめんね、AIさん！

…それは言いすぎだ。次からはたまには「りんごが3つ、猫の左にある写真」って詳しく書いてみたら？未来のAIのためだよ。

画像と言語を理解するAI（VLM）が、空間・時間・否定・数え上げといった推論が苦手な原因は、学習データに存在する「報告バイアス」にある。
報告バイアスとは、人が画像を説明する際に、暗黙の了解として「当たり前すぎる情報」を省略してしまう傾向のこと。例えば「野球の試合の写真」とは書くが、「37人がフィールドの後ろに立っている写真」とは書かない。
LAIONやLLaVA-1.5などの大規模な学習データセットを分析した結果、これらの推論に必要な情報は、データがウェブ規模に膨らんでも、極めて稀（例：空間関係はLAIONの0.1%）しか含まれていない。
データ量、モデルサイズ、多言語データを単純に増やしても（スケールアップ）、これらの推論能力は自然に出現しない。
しかし、推論に必要な情報を意図的に収集したデータで学習させると、モデルの推論能力は向上する。つまり、データの「質」を意識した収集が重要である。

投稿日:AI