AIが自分の「下書き」を直して天才に！？最新の推論強化術iGRPO

2月 10 2026

解説

ねえねえ智也くん！この『iGRPO』ってタイトル、なんか強そうなロボットの名前みたいでかっこいいね！これって何の研究なの？

ロボットじゃないよ。これはLLM、つまりAIが難しい数学の問題とかを解くときの「考え方」を、もっと賢くするための新しいトレーニング方法についての論文なんだ。

へぇー、AIの特訓メニューってことか！でも、今のAIってすでに十分頭いいんじゃないの？

確かにそうだけど、実は複雑な推論が必要な問題だと、一発で正解を出すのはまだ難しいんだ。人間だって、難しい問題は一度下書きを書いてから見直して解くでしょ？今のAIは、その「見直し」が苦手なんだよ。

あー、確かに！私もテストの時はとりあえず書いてみて、後から「あ、ここ間違えた！」って直すもん。AIもそういうことするの？

まさにそれをやらせようっていうのが、この『iGRPO』なんだ。ベースになっているのは『GRPO』っていう手法で、これは複数の回答を作らせて、その中でどれが良いかを比較して学習するやり方なんだけど……。

その『GRPO』に『i』がつくとどうなるの？「愛」がこもるの？

いや、Iterative（反復的）の『i』だよ。この手法は2つのステージに分かれているんだ。まず第1ステージでは、AIにいくつか「下書き」を書かせる。で、その中で一番出来が良いものを「ベスト下書き」として選ぶんだ。

ふむふむ、まずは下書き大会をするんだね。で、その次は？

第2ステージでは、その「ベスト下書き」をAIに自分でもう一度見せて、「これを参考にして、もっと良い回答を書いてみて」って命令するんだ。これを『条件付き洗練』って呼んでいるよ。

なるほど！自分の書いた一番いいやつをヒントにして、さらにレベルアップさせるんだね。それって、自分の間違いに自分で気づけるようになるってこと？

その通り。自分の思考プロセスを振り返ることで、より深く考える訓練になるんだ。この「自己フィードバック」を繰り返すことで、AIの推論能力がどんどんブーストされていくんだよ。

すごーい！それで、実際にどれくらい賢くなったの？

結果は驚異的だよ。AIMEっていうすごく難しい数学の大会の問題で、正解率が85%を超えたんだ。これは今のAIの中でもトップクラス、世界最高水準の成績なんだよ。

85点！？私より全然頭いいじゃん……。これがあれば、私の宿題も全部やってくれそうだね！

宿題は自分でやりなよ。でも、この研究のすごいところは、AIが「自分で自分を育てる」仕組みを作ったことなんだ。将来は、人間が教えなくてもAIが勝手に思考を深めて、科学の難問を解いちゃうかもしれない。

夢が広がるね！でも、何か弱点とかはないの？完璧すぎて怖いんだけど。

課題としては、下書きをたくさん作る分、計算に時間がかかることかな。あと、何が良い下書きかを判断する「報酬」の設定が正しくないと、変な方向に学習しちゃうリスクもある。これからは、もっと効率よく、正確に自己改善できる方法を探していく必要があるね。

そっかー。じゃあ私も、iGRPOを見習って、今日の夕飯のメニューを「下書き」から「洗練」させて豪華にしてみようかな！

夕飯を洗練させる前に、まずは溜まってるレポートを「下書き」から「完成」まで持っていきなよ。

LLMの数学的推論能力を向上させるための新しい強化学習手法「iGRPO（Iterative Group Relative Policy Optimization）」を提案。
従来のGRPOを拡張し、モデルが生成した「下書き」をヒントとして自分自身にフィードバックする2段階のプロセスを導入。
第1段階で複数の回答案（下書き）を生成して最良のものを選び、第2段階でその下書きを元にさらに洗練された回答を作成・学習する。
数学の難問ベンチマークであるAIME24で85.62%、AIME25で79.64%という世界最高水準（SOTA）の精度を達成。
モデルが自分の思考プロセスを振り返り、反復的に改善する「自己フィードバック」の重要性と有効性を示した。

投稿日:AI