解説

AMI HAPPY

ねえねえ智也くん!この「Close the Loop」っていう論文のタイトル、なんかカッコよくない?無限にデータが作れるって書いてあるけど、これってAIが勝手に賢くなる魔法の話?

TOMOYA NEUTRAL

魔法じゃないよ。これはAIが外部のツール、例えばカレンダーとか天気予報のAPIを使いこなすための学習データを、AI自身に作らせる「InfTool」っていう研究だね。

AMI SURPRISED

ツールを使う?AIがハンマーとか持つの?

TOMOYA NEUTRAL

いや、デジタルなツールのことだよ。今までは、AIにツールの使い方を教えるために人間が頑張って「こういう時はこのツールをこう使うんだよ」っていうお手本を書いてたんだけど、それがすごく大変でコストもかかるんだ。

AMI NEUTRAL

あー、人間が先生になって教えてたんだね。でも、この論文はそれをAIだけでやるってこと?

TOMOYA NEUTRAL

そう。面白いのは「マルチエージェント・ロールプレイング」っていう手法を使っているところだね。3つの役割のAIを用意して、おままごとみたいに対話させるんだ。

AMI HAPPY

おままごと!「あなたはお客さん役、私は店員さん役」みたいな感じ?

TOMOYA NEUTRAL

まさにそれ。「質問するユーザー役」「ツールを使うアシスタント役」、そして「ツールの結果を返すサーバー役」の3人だね。これで、実際のツール利用のやり取りを自動で再現するんだ。あと、MCP(Model Context Protocol)っていう、AIとツールを繋ぐ共通のルールを使っているのもポイントだよ。

AMI SURPRISED

へぇー!でも、AIが適当なデータを作っちゃったら、変な学習しちゃわない?

TOMOYA NEUTRAL

鋭いね。だから「クローズドループ」っていう仕組みがあるんだ。まずAIがデータを作って、それで自分を訓練する。訓練されたAIはもっと賢くなるから、次はもっと複雑で質の高いデータを作れるようになる。このサイクルを繰り返すんだよ。

AMI NEUTRAL

自分をどんどんアップデートしていくんだ!その訓練には何か特別な方法を使ってるの?

TOMOYA NEUTRAL

GRPOっていう強化学習の手法を使っているよ。これは、複数の回答を生成して、その中でどれが良いかを比較して学習する方法なんだ。特に「ゲート付き報酬」といって、ツールを正しく呼び出せた時だけ褒める仕組みにすることで、論理的な思考も一緒に鍛えられるんだよ。

AMI HAPPY

なるほど、ちゃんとできた時だけご褒美がもらえるんだね。それで、結果はどうだったの?

TOMOYA HAPPY

凄まじいよ。もともと20%くらいしか正解できなかったモデルが、この方法で70.9%まで跳ね上がったんだ。自分より10倍も大きいモデルや、あの有名なClaude-OpusっていうトップクラスのAIに並ぶ性能を、人間の手助けなしで出しちゃったんだよ。

AMI SURPRISED

ええっ!10倍も大きい相手に勝っちゃうなんて、ジャイアントキリングだね!

TOMOYA NEUTRAL

そうだね。この研究の意義は、人間がデータを作らなくても、APIの仕様書さえあればAIが勝手に進化できることを証明した点にある。将来は、新しいアプリが登場しても、AIが勝手にその使い方をマスターしちゃうかもしれないね。

AMI HAPPY

すごい……!じゃあ、これからはAIが勝手に勉強してくれるから、智也くんも研究しなくて良くなるんじゃない?

TOMOYA NEUTRAL

いや、まだ課題はあるよ。存在しないツールをでっち上げる「幻覚」の問題とか、もっと複雑な連携とかね。……それに、僕が研究をやめたら誰が亜美さんに解説するんだよ。

AMI HAPPY

あ、そっか!じゃあ、私のために「美味しいお菓子を無限に注文してくれるエージェント」をInfToolで作ってよ!

TOMOYA NEUTRAL

それはツール利用じゃなくて、ただの散財だろ。自分で買いに行きなさい。

要点

  • 人間によるデータ作成(アノテーション)を一切必要とせず、AIが自律的にツール利用の学習データを生成するフレームワーク「InfTool」を提案。
  • 「ユーザー役」「アシスタント役」「サーバー役」の3つのAIエージェントがロールプレイングを行うことで、複雑なツール利用の対話データを自動で作り出す。
  • MCP(Model Context Protocol)という標準規格を利用することで、未知のツールにも柔軟に対応できる汎用性を獲得。
  • GRPO(Group Relative Policy Optimization)という強化学習手法を用い、正解した時だけ報酬を与える仕組みでモデルを繰り返し進化させる「クローズドループ」を実現。
  • 32Bサイズのモデルが、10倍以上の巨大モデルやClaude-Opusに匹敵するツール利用精度(BFCLで70.9%)を達成した。