AIの『視線』を鍛えろ！言葉より『どこを見るか』が大事な理由

2月 05 2026

解説

ねえねえ智也くん！この『Reinforced Attention Learning』って論文、タイトルからして強そうじゃない？「強化されたアテンション学習」って、AIが超集中モードになるってこと？

あながち間違いじゃないよ。これはマルチモーダルLLM、つまり画像や動画を理解できるAIを賢くするための新しい方法なんだ。最近のAIは「考えてから答える」ことで賢くなってるけど、画像を見るのが苦手っていう弱点があったんだよね。

えっ、AIって画像を見るのは得意なんじゃないの？スマホの顔認証とか、あんなに速いのに！

単純な識別は得意だけど、複雑な動画を見て「何が起きているか」を論理的に説明しようとすると、実は画像の中の全然関係ない場所を見て適当なことを言っちゃうことがあるんだ。これを「グラウンディング（根拠付け）が弱い」って言うんだよ。

なるほどねー。テストで問題文を読み飛ばして、勘で答えちゃう私みたいな感じかな？

……まあ、似たようなものかもね。これまでの強化学習は「正解の言葉を出せたら褒める」っていうやり方だったんだけど、この論文は「正解にたどり着くために、ちゃんと正しい場所を見ていたら褒める」っていう風に、AIの『視線』、つまりアテンションを直接鍛えるんだ。

アテンションって、あの「注目！」ってやつだよね？どうやって鍛えるの？

アテンションは、AIが情報を処理するときに「どのデータが重要か」を数値化したものだよ。RAL（ラル）っていう提案手法では、AIが正解したときの「どこに注目したか」というパターンを覚えておいて、次からもそのパターンに近づくように学習させるんだ。逆に間違えたときは、その注目パターンを避けるようにする。

へぇー！「どこを見るか」を直接教えるんだね。でも、それって難しくない？

そこで「JSD（イェンセン・シャノン・ダイバージェンス）」っていう指標を使って、今の注目パターンと、良かった時のパターンの『ズレ』を計算して調整するんだ。さらに、頭の良い「教師モデル」の視線の配り方を、もっと小さな「生徒モデル」に真似させる『アテンション蒸留』っていう技も使っているよ。

蒸留！お酒みたい！頭の良い人の視線をコピーできるなんて、カンニングし放題じゃん！

言い方は悪いけど、学習効率はすごく良くなるんだ。実験では、動画や画像の質問回答タスクで、これまでの最新手法であるGRPOよりも高いスコアを出したんだよ。特に、細かい部分をしっかり見なきゃいけない問題で強さを発揮したみたいだね。

すごーい！じゃあ、これからAIはもっと動画の内容を正確に理解できるようになるってこと？

そうだね。防犯カメラの映像から異常を察知したり、ロボットが周りの状況を正確に把握して動いたりするのに役立つはずだよ。ただ、アテンションを全部計算するのはコストがかかるし、どういう報酬を与えるのがベストかっていう課題はまだ残っているけどね。

未来のAIは、私の隠し事も視線だけで見抜いちゃいそうだね！よし、私も智也くんのアテンションを独占できるように、自分を強化学習しなきゃ！

……亜美さんはまず、目の前の教科書にアテンションを向けて、単位を落とさないように学習しなよ。

マルチモーダルLLM（画像や動画を理解するAI）において、従来の「思考プロセスを言葉にする」強化学習だけでは、視覚的な認識能力が十分に向上しないという問題を指摘。
出力される「言葉」ではなく、モデル内部の「アテンション（どこに注目しているか）」の分布を直接強化学習の対象にする手法「RAL（Reinforced Attention Learning）」を提案。
良い結果につながった時の「視線の配り方」を学習し、悪い結果の時の配り方を避けることで、画像や動画の内容を正確に捉える「グラウンディング」能力を高める。
優れた教師モデルの視線の配り方を、より小さな生徒モデルに教え込む「オンポリシー・アテンション蒸留」という手法も開発。
画像や動画の質問回答タスクにおいて、従来の最新手法（GRPOなど）を上回る精度を達成し、AIの認識能力を底上げすることに成功。

投稿日:AI