AIの「カンニング」を許さない！爆速で真の実力を見抜く新兵器DATBENCH

1月 07 2026

解説

ねえ智也くん、この『DATBENCH』っていう論文、タイトルがかっこいいね！もしかして、デートにぴったりのオシャレなベンチをAIが探してくれる研究なの？

……全然違う。これはVLM、つまり画像と文字を同時に理解するAIの性能を、どうやって「正しく」「効率的に」評価するかについての研究だよ。亜美さん、AIの評価が今、どれだけ大変か知ってる？

えっ、テストを受けさせるだけじゃないの？ 100点満点で何点、みたいな。

それがそう簡単じゃないんだ。今のVLMの評価には大きな問題が3つある。1つ目は「不誠実さ」。画像を見て答えるはずのテストなのに、画像を見なくても言葉の知識だけで解けちゃう問題が、データセットによっては7割もあるんだよ。

ええっ！それって、目隠ししてクイズに答えてるようなものじゃない？カンニングみたいでズルいよ！

その通り。2つ目は「判別力の低さ」。4択問題だと、AIが適当に選んでも当たっちゃうことがあるだろ？これだと本当に賢いAIと、運がいいだけのAIの区別がつかない。そして3つ目が「非効率さ」。評価だけで、AI開発に使う計算パワーの20%も使っちゃってるんだ。

20%も！？もったいないね。スマホの充電が20%あったら、あと1時間はSNS見れるのに……。

例えが微妙だけど、まあそういうことだね。そこでこの論文が提案したのが『DATBENCH』だ。まず、4択問題を「自分で答えを書く記述式」に作り変えた。これで勘で当たるのを防ぐんだ。実際にやってみたら、正解率が35%も落ちたモデルもあったらしいよ。

記述式になると急に難しくなるのは、人間もAIも同じなんだね。他にはどんなことをしたの？

画像なしで解ける問題や、ラベルが間違っているゴミデータを徹底的に掃除したんだ。さらに、モデルの実力差がはっきり出る「質の高い問題」だけを厳選した。これが提案手法の核だね。

へぇー、精鋭部隊の問題集を作ったってことか！それで、結果はどうだったの？

すごいよ。評価にかかる時間を平均で13倍、最大で50倍も短縮できたんだ。しかも、短縮しても「どのAIが一番賢いか」というランキングは、元の膨大なデータを使った時とほとんど変わらなかった。

50倍速！？ 1時間の筋トレが1分ちょっとで終わるようなものじゃない！智也くん、これなら私たちもAIの研究がサクサク進むね！

そうだね。この研究の意義は、ただ速くするだけじゃなくて、AIが本当に「画像を見て考えているか」を厳しくチェックできるようになったことにある。これからは、見せかけのスコアに騙されずに、本当に高性能なVLMを開発できるようになるはずだ。

なるほどね。でも、まだ課題とかはあるんでしょ？

鋭いね。今のところ、記述式の採点をどう自動化するかとか、もっと複雑な推論をどう評価するかといった課題は残っている。でも、この「データを賢く選んで評価する」という方向性は、これからのAI研究のスタンダードになると思うよ。

よし、私もこのDATBENCHを使って、智也くんが本当に私のことを「可愛い」って思ってるか、厳しく評価しちゃおうかな！記述式で1000文字以内で答えてね！

……それはVLMじゃなくて、ただの僕への嫌がらせだろ。却下だ。

投稿日:AI