解説

AMI SURPRISED

ねえねえ、智也くん!これ見て!『複雑度ブースト強化学習によるオリンピアレベル幾何学LLMエージェントの実現』…なんかすごそうなタイトル!

TOMOYA NEUTRAL

ああ、その論文か。確かに面白い研究だよ。要するに、AIが国際数学オリンピックレベルの幾何学問題を解けるようになったって話。

AMI SURPRISED

え、マジで?数学オリンピックって、世界で一番頭いい高校生たちが解く問題でしょ?AIがそんなの解けるの?

TOMOYA NEUTRAL

うん。でも、これまでのAI、例えばAlphaGeometry 2っていうのは、3億個もの訓練データを使っていたんだ。でも、この論文の方法はたった1万3千個のデータで、それ以上の性能を出したんだ。

AMI SURPRISED

え、ちょっと待って。3億個と1万3千個…桁が違いすぎない?どうやってそんなに少ないデータでできるの?

TOMOYA NEUTRAL

それがこの研究の肝なんだ。AIエージェントが、シンボリックエンジンっていう幾何学の定理を自動で検証してくれるツールと、何百回も対話するんだ。問題を解く過程で、自分で補助線とか補助点を提案して、ツールに「これって正しい?」って確認しながら進んでいく。

AMI HAPPY

へえ…人間が問題解くときみたいに、試行錯誤するってこと?

TOMOYA NEUTRAL

そう。特に幾何学は、どこに補助線を引くかっていう「ひらめき」がすごく重要で、これが弱いヒューリスティクスって呼ばれて、AIには難しかったんだ。でも、長い対話の中で試行錯誤することで、これを克服したんだよ。

AMI HAPPY

なるほど…で、その「複雑度ブースト強化学習」って何?かっこいい名前だね。

TOMOYA NEUTRAL

強化学習でAIを訓練するときに、いきなり超難しい問題を与えるんじゃなくて、簡単な問題から始めて、だんだん問題を難しくしていくんだ。ゲームでいうと、チュートリアルから始めて最終ボスに挑むみたいな感じ。これで効率的に学習できる。

AMI SURPRISED

すごい!で、実際の結果はどうなったの?

TOMOYA NEUTRAL

2000年から2024年までのIMOの幾何学問題50問中、44問を解くことに成功した。金メダリストの平均スコアが40.9点だから、それを上回る成績だ。しかも、人間の解答にはない新しい補助構図を思いつくこともあったらしい。

AMI SURPRISED

え、AIが人間には思いつかないような解き方をするってこと?それって…ちょっと怖くない?

TOMOYA NEUTRAL

怖いってより、可能性を感じるよね。AIが人間の思考の枠を超える可能性を示している。これが意味するのは、AIが単に人間の真似をするんじゃなくて、新しい発見や創造ができるかもしれないってことだ。

AMI HAPPY

確かに…でも、これで完璧なの?何か課題とかあるんでしょ?

TOMOYA NEUTRAL

そうだね。一つは、一問解くのに200回以上もツールと対話するから、時間がかかること。あと、この方法が幾何学以外の数学分野でも通用するかはまだわからない。でも、この「長期的な対話を通じた試行錯誤」っていうアプローチは、他の複雑な問題を解くときにも応用できる可能性はあると思う。

AMI HAPPY

ふーん…つまり、AIが数学オリンピックの問題を解くだけじゃなくて、もっと広い意味で「難しい問題を、少ない知識から試行錯誤で解く」ための方法論を提案してるってこと?

TOMOYA NEUTRAL

そう。それがこの研究の一番の意義かもしれない。大量のデータを用意しなくても、対話と試行錯誤で高度な推論ができるAIの可能性を示したんだ。

AMI HAPPY

わあ、すごい!…ってことは、このAIに私の数学の宿題も解いてもらおうかな?

TOMOYA NEUTRAL

…亜美さん、それはただのサボりでしょ。自分で解きなよ。

要点

国際数学オリンピック(IMO)レベルの幾何学問題を解くためのLLMエージェント「InternGeometry」を提案。

従来の専門家モデル(AlphaGeometry 2など)は大規模な合成データと探索に依存していたが、本手法はわずか13Kの訓練例で同等以上の性能を達成。

シンボリックエンジンとの長期的な対話(200回以上)を通じて、補助構図の提案と検証を繰り返し、弱いヒューリスティクスを克服。

複雑度を段階的に上げる強化学習(CBRL)を導入し、効率的な訓練を実現。

IMO 2000-2024の50問中44問を解き、金メダリストの平均スコア(40.9)を上回る性能を示した。

人間の解答には現れない新しい補助構図を提案できる創造性も確認。

参考論文: http://arxiv.org/abs/2512.10534v1