AIがテスト中に自己進化！？人間を超える「発見」を生む新技術TTT-Discover

1月 23 2026

解説

ねえねえ智也くん！この『Learning to Discover at Test Time』っていう論文、タイトルからしてカッコよくない？「テスト中に発見を学ぶ」って、どういうこと？

ああ、それは面白い論文だよ。簡単に言うと、AIが問題を解いている最中に、その問題専用のトレーニングをして自分自身を賢くしちゃうっていう手法なんだ。

ええっ！？テスト中に勉強するなんて、それってズルじゃない？カンニングみたいなもの？

いや、カンニングじゃないよ。普通、AIは学習が終わったら中身は固定されるんだけど、それだと「人類もまだ知らないような超難問」には対応できないことがあるんだ。だから、解きながらその場で成長させようっていうのがこの論文のアイデアだね。

なるほど！でも、どうやって「解きながら成長」するの？AIが自分で自分の間違いに気づけるの？

いい質問だね。この手法では「強化学習」を使っているんだ。AIが何か答え（コードや数式）を出して、それがどれくらい良い結果だったかをスコアとしてフィードバックする。そのスコアを使って、その場でモデルの重みを更新するんだよ。

へぇ〜！でも、それって普通の強化学習と何が違うの？

大きな違いが2つある。1つは『エントロピー目的関数』。普通のAIは「平均的に良い点数」を取ろうとするけど、科学の発見には「たった1つの天才的な正解」があればいい。だから、最高得点を出す可能性を最大化するように学習するんだ。

あ、わかる！100回赤点でも、1回だけノーベル賞級の発見をすれば勝ちってことだね！

まさにそう。もう1つは『PUCT』っていう探索ルール。これは、過去に試した中で「惜しかった答え」をベースに、さらに改良を重ねる仕組みだよ。闇雲に探すんじゃなくて、筋が良さそうなところを重点的に攻めるんだ。

「惜しい！あとちょっと！」をAIが自分で判断して突き詰めるんだ。すごい根性だね！それで、実際に何かすごいものを見つけたの？

これが驚くべき結果でね。数学の難問で世界記録を更新したり、GPUの計算速度を競う大会で人間のエキスパートより2倍も速いコードを書いたりしたんだ。競技プログラミングのAtCoderでも、既存のAIを上回る成績を出しているよ。

人間のプロに勝っちゃうなんて……AIが科学者になっちゃう日も近いかも？

そうだね。この論文の意義は、オープンな（誰でも使える）モデルを使って、クローズドな最新モデル以上の成果を出したことにある。特定の専門知識を教え込まなくても、AIが自分で試行錯誤して専門家を超えられる可能性を示したんだ。

夢が広がるね！でも、何か弱点はないの？

課題としては、1つの問題を解くのに数百ドルくらいの計算コストがかかることかな。あと、今は「正解が数値で評価できる問題」に限定されている。今後はもっと効率を上げたり、評価が難しい抽象的な問題にも対応したりするのが研究の方向性だろうね。

よし！私もこの『TTT-Discover』を使って、明日のテスト中に「究極の居眠り方法」を発見しちゃうぞ〜！

それは発見じゃなくてただのサボりだろ。テスト中は自分の頭で考えなさい。

投稿日:AI