要点テキストから画像を生成する…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『マルチモーダル・リワードベンチ2』?リワードって、ご褒美のアレ?

ああ、それか。最近出た重要なベンチマークの論文だよ。リワードモデルっていうのは、AIが出力した答えのどちらが良いかを判断する、いわば「採点官」みたいなAIのことなんだ。

採点官AI?それって必要なの?AIが自分で答えを出して、それをもう一台のAIが採点するってこと?

そう。特に、文章だけじゃなくて画像も扱う「オムニモデル」っていう最新のAIを訓練する時に、すごく重要になるんだ。でも問題は、その採点官AI自身の性能をどう測るか、ってこと。良い採点官かどうか判断するための「テスト」がなかったんだよ。

なるほど…じゃあこの論文は、その採点官AIのためのテストを作ったってこと?

その通り。MMRB2っていう名前のテストセットを作ったんだ。これには4種類の問題が入ってる。例えば「この文章を元に画像を作って」とか、「この画像をこう編集して」とか、「画像と文章を織り交ぜて物語を作って」とか、あと「この画像を見て、この空間的な問題を解いて」っていう高度な推論問題も含まれてる。

へえ!すごく幅広いんだね。で、そのテストの答えはどう決めるの?誰が正解を決めるの?

そこがポイントで、専門家の人間が、2つのAIの回答を見比べて、どっちが良いかを決めるんだ。しかも、90%以上の専門家が同じ判断をする、かなり明確な「良い例」と「悪い例」のペアを1000組も集めたんだ。これが採点官AIの「模範解答」になるわけ。

すごい手間がかかってる!で、そのテストで今の採点官AIたちは何点取れたの?

結果は結構衝撃的だったよ。最新のGemini 3 Proでも、人間の一致率90%以上に対して74%から80%くらい。GPT-5やGemini 2.5 Proは66%から75%だ。よく使われてるGPT-4oに至っては59%くらいしかない。つまり、最先端のオムニモデルを評価するには、今の採点官AIたちはまだまだ力不足ってことだね。

えー、そんなに差があるんだ!じゃあ今、AIの評価って結構アテにならないってこと?

そういうことになるね。特に面白い発見は、推論問題で、採点官AIが「画像が含まれてる回答」を無条件に高く評価しちゃうバイアスがあったんだ。人間は文章だけの正しい答えもきちんと評価するのにね。最大で50%近くも精度に差が出てた。

あー、わかるかも!見た目が派手な方が良さそうに見えちゃうみたいな?

そういうことだね。この論文の意義は、こういう採点官AIの弱点を初めて大規模に明らかにしたことだ。これで、より正確な採点官AIを作る研究が加速するはずだよ。

なるほどー。で、これが良くなると何が嬉しいの?

採点官AIが正確になれば、画像や文章を生成する本命のAIを、もっと効率的に、そして安全に強くすることができる。例えば、間違った情報を載せた画像を生成するAIを、自動的に見つけて修正できるようになる。あと、このテストの成績が良い採点官AIを使うと、実際に良い画像や文章を生成するAIを作れることも確認されたから、信頼性の高い指標になるんだ。

すごい!じゃあこれから、もっと正確な採点官AIがどんどん生まれてくるんだね。でも、課題はあるの?

うん。まず、このテストを作るのに専門家の人手がめちゃくちゃかかってるから、もっと自動化する方法を考えないと拡張が大変だ。あと、動画や3D、音声みたいな、もっと色んな種類のデータを混ぜて扱う「本当の意味でのオムニモデル」が来たら、また新しいテストが必要になるだろうね。

ふーん、道はまだまだ長そうだね。でも、AIが自分たちの採点を自分でするためのテストを作るって、なんだかSFみたいで面白い!

そうだね。AIの社会への影響が大きくなるほど、AIを正しく評価する技術は重要になる。この論文はその第一歩なんだ。

わかった!じゃあ私も、次にAIが描いた絵を褒める時は、もっと厳しく採点しなくちゃね!…って、それ人間の仕事じゃん!

…結局、そこか。まあ、その感覚は大事だよ。最終的には人間の判断が基準なんだから。
要点
「マルチモーダル・リワードベンチ2(MMRB2)」という、画像とテキストが混在する「オムニモデル」の評価性能を測るための初の包括的なベンチマークを提案した。
評価対象は、テキストから画像を生成する「テキスト→画像生成」、画像を編集する「画像編集」、画像とテキストを交互に生成する「インタリーブ生成」、画像を使って考える「マルチモーダル推論」の4つのタスク。
各タスクについて、最先端モデルから生成された1000組の「良い応答」と「悪い応答」のペアを専門家が作成し、人間の評価との一致率でリワードモデルを評価する。
実験結果では、最新のGemini 3 Proでも人間の90%以上の一致率に対して74-80%の精度であり、既存の評価手法では最先端のオムニモデルを適切に評価できないことが示された。
MMRB2での性能は、実際の下流タスクでの性能と強く相関しており、リワードモデルの開発と評価の基盤として有効であることが確認された。
特に、推論タスクでは、応答に画像が含まれているかどうかで評価モデルに強いバイアスがあるなど、改善すべき具体的な課題も明らかになった。