解説ねえ、智也くん!『誘導と伝…
解説

ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『VIRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking』…うーん、難しそう。何がすごいの?

ああ、それか。要するに、AIが図形問題みたいな視覚的な数学問題を解く時に、もっと人間みたいに賢く解けるようにする研究だよ。

人間みたいに?今のAIって、そういうの苦手なの?

うん。今までのAIは、問題の画像を最初に一度見たきりで、後はテキストだけでゴリゴリ計算して答えを出そうとするか、逆に推論の全てのステップでいちいち画像を見直すか、どっちかだったんだ。

え、それって変なの?私たちも問題の図を何度も見返すよね?

そう。そこがポイントなんだ。人間は、問題を解く時に、大きな塊(チャンク)に分けて考えるだろ?例えば、図形問題なら『まずこの三角形に注目して…次にこの辺の長さを求めて…』みたいに。

あー、確かに!で、この論文はそれをAIにやらせようって話?

そう。『Reason Chunking』って名前で、推論の流れを『Critical Reasoning Unit』、略してCRUっていう論理的な塊に分けるんだ。それぞれのCRUで、必要になった時だけ画像の特定の部分を拡大したりして確認する。無駄に何度も見ないで、賢く見るんだ。

ふむふむ…でも、そんな風に『塊で考えろ』ってどうやってAIに教えるの?データが大変そう。

鋭いね。そこで彼らは『CRUX』っていう新しいデータセットを作った。数学問題に対して、正解の推論パスと、ありそうな間違いパスを用意して、それぞれのステップがどのCRUに属するか、どの部分の画像を見るべきか、を全部人手で注釈したんだ。すごい労力だよ。

わあ、それは大変!で、そのデータでどう訓練するの?

人間が勉強する順番を真似て、3段階で訓練するんだ。まず『Instructional SFT』で、チャンクの概念やCRUの作り方を教科書的に教える。次に『Practice SFT』で、実際に画像を見ながら問題を解く練習をさせる。最後に『Strategic RL』で、特に難しい問題に集中して、推論と画像の参照の仕方をさらに洗練させる。

まるで家庭教師みたい!で、結果はどうだったの?

彼らが作った『VIRC-7B』というモデルは、他のAIモデルと比べて、数学のベンチマークテストで平均18.8%も正答率が上がった。しかも、ただ正解するだけでなく、推論の過程が人間らしく構造化されていた。

すごい!これって、数学の問題を解くAIが賢くなるだけじゃなくて、AIの『考え方』そのものが人間に近づいてるってこと?

そういうことだね。認知科学の理論をAIの設計に積極的に取り入れた点が面白い。将来的には、数学に限らず、複雑な図面を読んだり、マニュアルの図を理解しながら作業手順を考えたりするような、もっと実用的なタスクにも応用できるかもしれない。

将来、AI家庭教師が本当に『この部分がわからないんだね、じゃあこの図をよく見てごらん』って教えてくれる日が来るかも!

そうなるといいね。ただ、課題もある。この手法は膨大な注釈データが必要だし、数学以外の分野で同じようにうまくいくかはまだわからない。あと、画像を部分的に何度も処理するので、計算コストも考えないといけない。

なるほど…。でも、AIが『考え方』を学び始めてるって、なんだかワクワクするな!私も勉強しなきゃ!…あ、でもまずは明日のレポートを『チャンク』に分けて片付けようっと。

…お前、それにはミラーの法則は関係ないから。とにかく始めろ。
要点
既存のマルチモーダル大規模言語モデル(MLLM)は、数学問題を解く際に単一の静的な画像からテキストのみで推論を行うため、推論中に画像の詳細を動的に参照する人間の認知プロセスを模倣できていない。
人間は複雑な問題を「チャンク(塊)」に分解して段階的に解く。この認知科学の「ミラーの法則」に基づき、論文では「Reason Chunking(理由のチャンキング)」という仕組みを提案している。
Reason Chunkingでは、推論プロセスを「Critical Reasoning Unit(CRU)」という論理的な単位に構造化する。各CRUは自己完結した中間命題を含み、必要に応じて視覚情報を動的に参照する。
この手法を訓練するために、複数の推論パスと明示的なCRU注釈を含む「CRUX」というデータセットを構築した。
人間の認知学習プロセスに着想を得た3段階の訓練戦略(Instructional SFT, Practice SFT, Strategic RL)を採用し、VIRC-7Bモデルを開発した。
複数の数学ベンチマークで平均18.8%の性能向上を達成し、視覚的推論における人間らしい選択的注意と構造化推論の実現可能性を示した。