AIが「自分専用の採点基準」を作る？画像・動画生成を劇的に進化させる新技術！

2月 04 2026

解説

ねえねえ智也くん！この『UnifiedReward-Flex』っていう論文、タイトルに「パーソナライズ」とか「リワード」って入ってて、なんだかお得なポイントカードの話みたいじゃない？

全然違うよ。これは画像や動画を作るAIを、どうやって「賢く褒めて伸ばすか」っていう報酬モデル（Reward Model）の研究だよ。AIが作った作品を採点する「先生役」の話だね。

AIの先生！でも、今のAIってすでにかっこいい絵を描けるじゃない？何が問題なの？

今の「先生AI」は、どんな絵に対しても同じ採点基準しか持ってないんだ。例えば「悲しい物語の挿絵」と「激しく動くアクション動画」を、同じチェックリストで採点しようとする。これじゃあ、細かいニュアンスが伝わらないだろ？

あー、算数のテストなのに「漢字が綺麗だから100点！」って言われるみたいな感じ？それはちょっと困るかも。

そう、まさにそれ。だからこの論文では、プロンプトの内容を見てから「今回はこのポイントを重点的に見よう」って、その場で評価シートを自作する『Flex』っていう仕組みを提案してるんだ。

へぇー！その場でテスト用紙を作るなんて、すごく頭のいい先生だね。どうやってそんなことができるようになったの？

まず、ものすごく賢い既存のVLM（画像と言語を理解するモデル）から、「どうやって評価基準を考えるか」っていう思考のプロセスを教えてもらうんだ。これをSFT（教師あり微調整）って呼ぶよ。

まずはベテラン先生の真似っこから始めるんだね！

その通り。その後にDPO（直接選好最適化）っていう手法を使って、単に正解を選ぶだけじゃなくて「より納得感のある理由で採点できているか」を鍛え上げるんだ。これで、ただの点数じゃなくて、論理的な裏付けのある報酬が出せるようになる。

なるほど……。で、その「Flex先生」に褒めてもらうと、AIはもっといい絵を描けるようになるの？

実験結果では、画像も動画も明らかに品質が上がったみたいだよ。特に動画だと、動きの滑らかさとか、物理的に不自然じゃないかとか、その動画に特化したチェックができるから効果が高いんだ。

すごい！じゃあ、将来は「私の好みを完璧に理解してくれる先生」がついて、私専用の最高のアニメとか作ってくれるようになるのかな？

理論上はそうだね。ただ、まだ課題もあって、評価基準をその都度考えるから計算に時間がかかるし、もっと複雑なストーリーを理解するにはさらなる進化が必要だよ。

そっかぁ。でも、AIが私の「エモい」っていう感覚を分かってくれる日が来るなんてワクワクするね！よし、私も智也くんを「パーソナライズ報酬モデル」で採点してあげる！今日のご飯を奢ってくれたら100点満点だよ！

それはただの買収だろ。不合格。自分で買いに行けよ。

従来の画像・動画生成AIの報酬モデル（評価役）は、どんな入力に対しても一律の基準で採点する「一サイズですべてに適合（one-size-fits-all）」という問題を抱えていた。
提案された『UnifiedReward-Flex』は、プロンプトの意図や生成された内容に応じて、評価基準を動的に作り変える「文脈適応型」の報酬モデルである。
評価プロセスは階層的で、あらかじめ決められた次元だけでなく、AIがその場で必要だと判断した新しい評価軸を追加して採点を行う。
学習は2段階で行われ、まず高性能なVLMから論理的な思考プロセスを学び（SFT）、次にDPOを用いて「より正しい推論」ができるように最適化されている。
画像および動画生成の強化学習（GRPO）に組み込んだ結果、既存のモデルよりも人間の感性に近い、高品質な生成が可能になった。

投稿日:AI