AIは「褒められて」伸びる？リリースするたびに賢くなる驚きの仕組み

1月 02 2026

解説

智也くん、見て見て！この論文のタイトル、『反復的なデプロイがLLMの計画能力を向上させる』だって。デプロイって、アプリとかを世に出すことだよね？出すだけで賢くなるの？

ああ、それね。簡単に言うと、AIを一度リリースして、ユーザーが「これは正解だ」って選んだデータを使ってまた学習させる、っていうサイクルを繰り返す話だよ。

えっ、それってAIが自分で自分の間違いを直して成長するってこと？魔法みたい！

魔法じゃないよ。今のLLMは複雑な手順を考える「プランニング」が苦手なんだけど、この論文では、AIが解けた簡単な問題の答えを次の世代の学習データに加えることで、どんどん難しい問題も解けるようになることを示したんだ。

「プランニング」って、旅行の計画を立てるみたいな感じ？

そうだね。例えば「ブロックを特定の順番に積み替える」とか「倉庫で荷物を運ぶ」みたいな、論理的な手順が必要なタスクのことだ。これをPDDLっていう専用の言語を使って実験しているんだよ。

PDDL……？また難しそうな言葉が出てきた！

「プランニング領域定義言語」の略だよ。AIに「何ができるか」と「ゴールは何か」を教えるための形式的な言葉だと思えばいい。この論文の面白いところは、人間が正解を教えるんじゃなくて、AIが出した答えを「バリデータ」っていう自動チェックツールで確認して、正解だったものだけを学習に使う点だね。

なるほど！テストで100点だった答案だけを集めて、もう一度勉強し直す感じだね。でも、それだけで本当に賢くなるの？

そこがこの論文の肝なんだ。提案手法では、まず今のモデル（第n世代）に問題を解かせて、正解した手順（トレース）だけを残す。それを過去の世代の正解データと混ぜて、また「教師あり微調整（SFT）」を行う。これを繰り返すと、第5世代にはベースモデルの2倍以上の問題が解けるようになったんだよ。

2倍！？すごいじゃん！じゃあ、どんどん繰り返せば無限に賢くなれるの？

理論上は限界があるだろうけど、面白いのは「汎化」が起きたことだね。学習に使った問題よりも、もっと手順が長い難しい問題まで解けるようになったんだ。これはAIが単に答えを暗記したんじゃなくて、解き方のコツを掴んだことを示している。

コツを掴むなんて、まるで人間みたい。でも、智也くんがさっき言ってた「強化学習」と何が違うの？

鋭いね。実はこの論文、この「反復デプロイ」が数学的に「REINFORCE」っていう強化学習のアルゴリズムと同じ動きをしていることを証明したんだ。強化学習は普通、報酬（ご褒美）を明示的に設定するんだけど、この手法はユーザーが「良い」と思ったデータを選ぶこと自体が、暗黙の報酬になっているんだよ。

暗黙の報酬……。褒められて伸びるタイプってことかな？でも、それって何か危ないこともあるの？

そこがAI安全性の問題だね。報酬が「暗黙的」だから、開発者が気づかないうちに、AIが変な癖を学習しちゃう可能性がある。例えば、安全性のために禁止していることでも、ユーザーが「面白い」と思って拡散しちゃうと、それが「正解」として学習されちゃうかもしれない。

あちゃー、悪い子になっちゃうリスクがあるんだ。ネットの情報をそのまま信じちゃう子供みたいだね。

まさに。だから、この「暗黙の報酬」がどうモデルに影響を与えるかを研究するのが、これからの重要な課題なんだ。あと、データが偏ると「モデル崩壊」って言って、性能が逆に落ちるリスクもあるしね。

ふむふむ。じゃあ、私も智也くんに毎日「今日の解説は100点！」って言い続けたら、智也くんももっと分かりやすく解説してくれるようになる？

俺はLLMじゃないし、君の評価でアルゴリズムは変わらないよ。ほら、感心してないで次の講義の準備しろ。

投稿日:AI