解説

AMI HAPPY

ねえねえ智也くん!この『KLong』って論文、もしかしてすごく長いケーキの作り方の研究なの?

TOMOYA NEUTRAL

……いや、全然違う。これはAIエージェントに、ものすごく息の長い仕事をさせるための研究だよ。Kは『Knowledge』とかの意図もあるだろうけど、Longは『長期タスク』のことだね。

AMI SURPRISED

息の長い仕事?AIっていつも一瞬で返事してくれるじゃない。そんなに長く頑張ることなんてあるの?

TOMOYA NEUTRAL

普通のチャットならそうだけど、例えば『この最新論文の実験をゼロから再現して』って頼んだらどうなると思う?コードを書いて、エラーを直して、データを集めて……って、人間でも数日かかるよね。これをAIにやらせるのが『超長期タスク』なんだ。

AMI HAPPY

うわ、それは大変そう!AIさんも途中で『もう無理〜!』って投げ出しちゃいそうだよ。

TOMOYA NEUTRAL

実際、今までのAIはそうだったんだ。作業が長すぎると、最初の方に何をしていたか忘れちゃう『コンテキストウィンドウ(一度に覚えられる情報の限界)』の問題があるし、途中で失敗すると立て直せなくなる。この論文は、それを解決する『KLong』っていうモデルを作ったんだよ。

AMI HAPPY

へぇー!どうやって賢くしたの?やっぱり特訓?

TOMOYA NEUTRAL

そう、特訓だね。まず『Research-Factory』っていう仕組みを作って、世界中の難しい論文から学習用のデータを自動で集めたんだ。AIに『お手本』を見せるためのSFT(教師あり微調整)っていう工程があるんだけど、作業が長すぎてそのままじゃ学習できないんだよ。

AMI SURPRISED

長すぎて覚えきれないなら、細切れにすればいいんじゃない?

TOMOYA NEUTRAL

鋭いね。それが『軌跡分割SFT』だ。ただバラバラにするんじゃなくて、大事な『論文の内容』は常に頭の片隅に置いたまま、作業の工程を少しずつ重なるように分割して教え込むんだ。これで、長い作業でも一貫性を持って進められるようになる。

AMI HAPPY

なるほど!じゃあ、あとはひたすら練習あるのみだね!

TOMOYA NEUTRAL

そこで『段階的強化学習(Progressive RL)』の出番だ。強化学習は、AIが自分でやってみて、うまくいったら褒める学習法なんだけど、いきなり12時間の作業をやらせても失敗ばかりで褒めるチャンスがない。だから、最初は2時間の短い作業から始めて、徐々に制限時間を伸ばして難しい課題に挑戦させたんだよ。

AMI HAPPY

スパルタだ……!でも、そのおかげで凄くなったの?

TOMOYA NEUTRAL

凄まじいよ。PaperBenchっていう論文再現のテストで、KLongは自分より10倍も大きい1兆パラメータ級のモデル『Kimi K2』に11%以上の差をつけて勝ったんだ。他にもプログラミングの難問ベンチマークでもトップクラスの成績を出している。

AMI HAPPY

10倍大きい相手に勝つなんて、まるで小柄な格闘家が巨漢を倒すみたいでカッコいい!これがあれば、将来はどうなるの?

TOMOYA NEUTRAL

科学研究の自動化がぐっと近づくね。人間が寝ている間に、AIが新しい理論を検証して実験まで終わらせてくれるかもしれない。ただ、まだ課題もあって、計算コストがすごく高いし、環境の準備も大変なんだ。これからはもっと効率的に、かつ安全に動かす研究が必要になるだろうね。

AMI HAPPY

そっかぁ。じゃあ、KLongくんに私の大学の宿題も全部やってもらって、その間に私は本物の長いケーキを食べに行っちゃおうかな!

TOMOYA NEUTRAL

……自分の宿題くらい自分でやりなよ。AIに頼りすぎて思考停止するのが一番の『超長期的なリスク』だよ。

要点

  • 数時間から十数時間に及ぶ「超長期タスク(Extremely Long-horizon Tasks)」を解くためのAIエージェント「KLong」を提案。
  • 論文の再現実験など、従来のAIが苦手としていた非常に長いステップが必要な作業をターゲットにしている。
  • 「Research-Factory」という自動パイプラインを構築し、最新の論文から高品質な学習データと評価基準を大量に生成。
  • 長い作業工程を文脈に合わせて分割して学習する「軌跡分割SFT」と、制限時間を段階的に伸ばして学習させる「段階的強化学習(Progressive RL)」を導入。
  • 106B(1060億パラメータ)のサイズでありながら、1T(1兆パラメータ)級の巨大モデルであるKimi K2 Thinkingを凌駕する性能を達成。