要点テキストから画像を生成する…
解説
ねえねえ智也くん!この「進化するシステムプロンプト学習」っていう論文、タイトルがかっこよくない?AIがポケモンみたいに進化するの?
ポケモンじゃないけど、考え方は近いかもしれないね。これはE-SPLっていう手法で、AIの「中身の重み」と「外からの指示」を同時に賢くしようっていう研究なんだ。
中身と外?どういうこと?
普通、AIを賢くするには、強化学習でモデルの「重み」を調整するか、人間が頑張って良い「プロンプト」を書くかのどっちかだったんだ。でも、この論文は「両方いっぺんにやればもっと強くなるよね」って言ってるんだよ。
欲張りセットだ!でも、どうやって同時にやるの?
まず、たくさんの「システムプロンプト」の候補を用意するんだ。システムプロンプトっていうのは、AIに「あなたは数学の天才です」とか「手順を追って考えて」って命令する基本設定のことね。
ふむふむ、性格付けみたいなものかな?
そうだね。で、その色んなプロンプトを使ってAIに問題を解かせて、強化学習で「重み」を更新する。それと同時に、成績が良かったプロンプトを「進化アルゴリズム」でさらに改良していくんだ。
進化アルゴリズム!やっぱり進化するんだ!突然変異とかしちゃうの?
まさに。LLM自身がプロンプトを書き換える「突然変異(Mutation)」と、良いプロンプト同士を組み合わせる「交叉(Crossover)」を行うんだ。これで、より良い「説明書」が自動で作られていくわけ。
すごーい!AIが自分で自分の説明書を書き直すんだね。でも、重みを変えるのとプロンプトを変えるのって、役割が被っちゃわない?
そこがこの論文の面白いポイントだよ。プロンプトは「宣言的知識」、つまり具体的なルールや戦略を覚える担当。重みは「手続き的知識」、つまり直感やスキルの習熟を担当するっていう役割分担ができるんだって。
なるほど!プロンプトが「教科書」で、重みが「練習量」みたいな感じかな?
いい例えだね。実験結果でも、数学の難しいテストで、強化学習だけの時より正解率が大幅に上がったらしいよ。特に、簡単な問題で練習して難しい問題に挑戦する「汎化」の能力がすごく高まったんだ。
練習したことない難しい問題も解けちゃうなんて、まさに進化だね!これって将来はどうなるの?
将来的には、人間がプロンプトを一切書かなくても、AIが勝手に最高の戦略を見つけ出して、勝手に自分を鍛え上げる「完全自律型の学習システム」ができるかもしれないね。
じゃあ、いつかAIが「智也くん、君の教え方は効率が悪いから僕が自分でやるよ」って言い出しちゃうかも?
……それはそれで寂しいけど、研究としては成功だね。ただ、まだ計算コストが高いとか、もっと複雑なタスクでどうなるかとか、課題もたくさんあるんだよ。
そっかー。じゃあ、私も進化アルゴリズムで「もっとお菓子を効率的に手に入れるプロンプト」を開発しなきゃ!
それは進化じゃなくて、ただの食いしん坊の知恵でしょ。勉強しなさい。
要点
- LLMの自己改善には、モデルの重みを更新する「強化学習(RL)」と、プロンプトを改善する「自己反省」の2つの主要なアプローチがあるが、これまでは個別に扱われてきた。
- 提案手法のE-SPL(Evolutionary System Prompt Learning)は、強化学習による重みの更新と、進化アルゴリズムによるシステムプロンプトの更新を同時に行うフレームワークである。
- システムプロンプトは「宣言的知識(戦略やルール)」を、モデルの重みは「手続き的知識(直感やスキル)」を学習するという役割分担が自然に発生する。
- 数学(AIME)やエージェントタスクにおいて、従来の強化学習のみの手法よりも高い性能と汎化性能(簡単な問題から難しい問題への対応力)を示した。
- 進化プロセスでは、LLM自身が「突然変異」や「交叉」を用いてプロンプトを改良し、TrueSkillレーティングによって優れたプロンプトが選別される。