過去の失敗を宝に変える！AIの学習効率を爆上げする『PrefixRL』の魔法

1月 27 2026

解説

ねえねえ智也くん！この『Reuse your FLOPs』っていう論文のタイトル、なんかカッコよくない？「フロップスを再利用しろ」って、サンダルかなにかの話？

サンダルじゃないよ。FLOPs（フロップス）は計算量の単位のこと。AIを動かすために使った膨大な計算パワーを無駄にせず、再利用しようっていう研究なんだ。

へぇー！計算パワーの再利用かぁ。エコだね！でも、どうやって再利用するの？

実は、AIに難しい数学やプログラミングの問題を解かせる強化学習って、すごく効率が悪いんだ。難しすぎるとAIが一度も正解にたどり着けなくて、何を学べばいいか分からず立ち往生しちゃうんだよ。

あー、私もテストで難問が出ると、白紙のまま固まっちゃうもん。それと同じだね！

そう。その「白紙で固まる」状態を防ぐために、過去にたまたま正解した時のデータや、他のモデルが解いた時の「正解までの途中経過」をヒントとして再利用するのがこの論文の肝なんだ。

えっ、じゃあその正解をそのまま覚えさせちゃえばいいんじゃない？

それが意外とダメなんだよね。丸暗記させる手法をSFT（教師あり微調整）って言うんだけど、それだとAIが「自分で考える」のをやめて、多様性がなくなっちゃう。かといって、無理やり正解に導こうとすると学習が不安定になるんだ。

なるほど、丸暗記は応用が効かないもんね。じゃあ、どうするの？

そこで『PrefixRL』の出番。正解データの「最初の数行（接頭辞）」だけを問題にくっつけて、そこから先はAIに自力で解かせるんだ。これを「オンポリシー」の強化学習って言うんだけど、自分の力で最後まで解き切ることで、学習がスムーズに進むようになる。

あ、わかった！「ここまでは合ってるから、続きを考えてみて！」ってヒントを出す感じだね？

その通り。これによって、AIは「正解に近い状態」からスタートできるから、効率よく学習できるんだ。しかも面白いのが『バック汎化』っていう現象。ヒント付きの問題で練習しただけなのに、なぜかヒントがない元の難しい問題も解けるようになるんだよ。

ええっ！ヒントなしでも解けるようになるの？すごい！実験ではどれくらい効果があったの？

従来の手法と比べて、同じ正解率に達するまでのスピードが2倍速くなった。しかも、最終的な正解率は3倍以上もアップしたんだ。別の種類のAIが作ったヒントを使っても効果があったから、かなり汎用性が高いよ。

2倍速くて3倍強いなんて、まるでお得なキャンペーン中みたいだね！これがあれば、どんな難問もスラスラ解けるAIができるのかな？

将来性はかなりあるね。今まで捨てられていた「過去の計算結果」を全部学習の糧にできるわけだから。ただ、課題もある。そもそも「一つも正解データがない」ような超難問には使えないし、どの程度の長さのヒントが最適かっていう調整も必要だね。

なるほどねー。でも、智也くんも私のレポートに『Prefix（接頭辞）』をつけてくれたら、私の成績も3倍になるかも！

亜美さんの場合は、バック汎化する前にそのまま寝ちゃいそうだからダメ。自分の力でやりなさい。

難問に対する強化学習（RL）において、正解が全く出ないために学習が進まない「停滞」の問題を解決する手法を提案している。
過去の推論や別のモデルから得られた成功例（オフポリシーデータ）を「接頭辞（Prefix）」として問題に付け加え、その続きをモデルに解かせる「PrefixRL」を開発した。
単に正解を真似させる（SFT）のではなく、ヒントを与えた状態で自力で解かせることで、学習の不安定さや多様性の喪失を防いでいる。
「バック汎化」という現象を発見。接頭辞付きの問題で訓練するだけで、接頭辞がない元の難しい問題も解けるようになる。
従来の手法（SFT後にRL）と比較して、計算コストを考慮しても2倍速く学習が進み、最終的な正解率は3倍以上に向上した。

投稿日:AI