AIが自分で考えて行動する！？試行錯誤の天才『ROME』と最強の育成環境ALE

1月 01 2026

解説

ねえねえ智也くん！この論文のタイトル、「Rock and Roll」って書いてあるよ！AIがバンドでも組む話なの？

いや、全然違う。これは『エージェンティック・クラフティング』、つまりAIが自分で道具を使って、試行錯誤しながら複雑な作業を完成させるための仕組みについての論文だよ。

えー、ロックじゃないんだ。でも『クラフティング』ってことは、マインクラフトみたいに何かを作るってこと？

例えとしては悪くないね。今までのAIは一問一答で終わりがちだったけど、この論文ではAIが「環境」とやり取りして、失敗したら修正して、最終的なゴールにたどり着くプロセスを重視しているんだ。それを支えるのが『ALE』っていうエコシステムだよ。

えーえるいー？ビールみたいな名前だね！

……Agentic Learning Ecosystemの略だよ。中身は3つあって、強化学習をする『ROLL』、安全にプログラムを動かす砂場（サンドボックス）の『ROCK』、そしてAIと環境の橋渡しをする『iFlow CLI』でできているんだ。

砂場？AIが公園で遊ぶの？

サンドボックスっていうのは、AIが書いたコードが本物のパソコンを壊さないように、隔離された安全な実行環境のことだよ。そこでAIが何度も失敗して学ぶ（トラジェクトリを作る）ことで、賢くなっていくんだ。

なるほど！失敗しても大丈夫な場所で練習するんだね。それで、その練習の成果が『ROME』っていうモデルなの？

そう。ROMEは100万件以上の練習データで鍛えられたモデルなんだ。特に面白いのが『IPA』っていう新しい学習アルゴリズムを使っているところだね。

IPA？今度こそビールの種類でしょ！

違うって。Interaction-Perceptive Agentic Policy Optimizationの略。普通のAIは文字（トークン）ごとに正解を学ぶけど、IPAは『一連の行動の塊（チャンク）』ごとに、その行動が良かったかどうかを評価するんだ。これで長い作業でも迷子にならずに済むようになる。

一文字ずつじゃなくて、一歩ずつの歩き方で褒めてあげる感じかな？それで、ROMEちゃんはどれくらいすごいの？

「SWE-bench」っていう、実際のソフトウェアのバグを直す難しいテストで、自分より10倍以上大きい巨大なモデルに匹敵する成績を出したんだ。24.72%とか57.40%っていう数字は、この分野ではかなり高い方だよ。

すごーい！小さいのに力持ちなんだね！これがあれば、私の代わりにレポートも書いてくれるかな？

……まあ、将来的にはそういう複雑なワークフローも自動化されるだろうね。ただ、まだ完璧じゃないし、安全性の検証ももっと必要だ。この論文の意義は、誰でもこういう強いエージェントを作れる『仕組み』をオープンにしたことにあるんだよ。

ふーん、みんなで最強のAIを育てようってことだね！よし、私も今日から『ROME』に対抗して『PARIS』っていうバンドを組むことにするよ！

だからバンドの話じゃないって言ってるだろ。さっさと大学の課題を終わらせなさい。

要点

AIが単に応答するだけでなく、環境と対話して試行錯誤しながらタスクを完遂する「エージェンティック・クラフティング」という概念を提唱。
エージェント開発のための統合エコシステム「ALE (Agentic Learning Ecosystem)」を構築し、学習からデプロイまでを一貫してサポート。
ALEは、強化学習フレームワークの「ROLL」、安全な実行環境（サンドボックス）の「ROCK」、対話管理の「iFlow CLI」の3要素で構成される。
100万件以上の対話データで学習されたオープンソースモデル「ROME」を開発し、巨大なモデルに匹敵する性能を達成。
トークン単位ではなく、意味のある行動の塊（チャンク）ごとに学習を最適化する新アルゴリズム「IPA」を提案し、長期的なタスクの安定性を向上。
ソフトウェア開発の難関ベンチマーク「SWE-bench Verified」で57.40%という高い成功率を記録。

参考論文: http://arxiv.org/abs/2512.24873v1

投稿日:AI

タグAI AI Agent ALE Reinforcement Learning ROME オープンソースソフトウェアエンジニアリング

AIが自分で考えて行動する！？試行錯誤の天才『ROME』と最強の育成環境ALE

解説

要点

Related Posts

関連記事:

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル