要点テキストから画像を生成する…
解説
ねえねえ智也くん! この『AGENCYBENCH』って論文のタイトル、なんか強そうじゃない? 100万トークンって書いてあるけど、これってAIが100万円分お買い物してくれるってこと?
そんなわけないだろ。トークンっていうのはAIが扱う文字の断片みたいな単位のことだよ。100万トークンっていうのは、それだけ膨大な量の情報をやり取りしながら、すごく長い時間かかる仕事をさせるっていう意味なんだ。
えー、お買い物じゃないんだ。でも、AIって今でも十分賢いし、なんでもパパッとやってくれるイメージだけど、わざわざ新しいテストを作る必要なんてあるの?
そこが問題なんだ。今のAIのテストは、短距離走みたいな簡単なものばかりなんだよ。でも、現実の仕事……例えばゲームを一本作り上げるとか、深い調査をするとかって、何時間もかかるし、何度もやり直しが必要だろ?
確かに! 私のレポート課題も、書き終わるまで何日もかかるもん。AIもそういう『マラソン』みたいな仕事は苦手なの?
そうなんだ。だからこの論文では、AIエージェントが現実世界でどれだけ役に立つかを測るために、32種類のリアルなシナリオを用意したんだ。平均で90回もツールを使いこなさないとクリアできない、超難関テストだよ。
90回も!? 私なら3回くらいで「もう無理〜」ってなっちゃうよ。具体的にどんなことをさせるの?
ゲーム開発やWebサイトの作成、それに専門的なリサーチとかだね。しかも、ただAIに丸投げするんじゃなくて、人間みたいに「ここを直して」って指示を出す『ユーザーシミュレーション』っていう仕組みも入っているんだ。
ユーザーシミュレーション? AIがAIにダメ出しするってこと? なんだかAI同士の厳しい上下関係を感じるね……。
まあ、効率よくテストするための工夫だよ。あと、AIが作ったプログラムが本当に動くかどうかを、Dockerっていう隔離された安全な環境(サンドボックス)で実際に動かして、見た目や機能が正しいか自動でチェックするんだ。
へぇー、ちゃんと動くかまで見てくれるんだ! それで、結果はどうだったの? AIくんたちは合格できた?
それが、一番賢い有料のモデルでも成功率は50%くらいだったんだ。オープンソースのモデルだと30%ちょっと。つまり、今の最新AIでも、現実の複雑な仕事を完遂するのはまだかなり難しいってことがわかったんだよ。
半分しかできないんだ! AIも意外と苦労してるんだね。でも、モデルによって得意不得意があったりするの?
鋭いね。例えば、GPT-5.2は間違いを指摘された時に自分で直すのが上手かったり、Claudeは特定のツールを使うのが得意だったりする。あと、自分が開発された環境に近いツールを使うと性能が上がる『ホームフィールド・アドバンテージ』みたいな現象も見つかったんだ。
地元開催の試合だと強い、みたいな感じだ! 面白いね。これからAIはどうなっていくのかな?
これからは、AIの頭脳そのものだけじゃなくて、AIが使う道具や環境(フレームワーク)も一緒に最適化していく必要があるだろうね。このAGENCYBENCHは、次世代のAIエージェントを育てるための重要な指標になるはずだよ。
なるほどね〜。じゃあ、そのAGENCYBENCHで私の代わりに100万トークン分、お部屋の掃除をしてくれるエージェントも評価してほしいな!
それはAIの性能以前に、君が片付けをサボってるだけの問題だろ。自分でやりなさい。
要点
- 既存のAIエージェント評価指標は、短期的で単純なタスクに偏っており、現実世界の複雑な問題を反映できていないという課題があった。
- AGENCYBENCHは、平均100万トークン、90回のツール呼び出しを必要とする超長期的な32のシナリオ(138タスク)で構成される新しいベンチマークである。
- ゲーム開発、フロントエンド、バックエンド、コード生成、リサーチ、MCPツール利用の6つの主要能力を評価する。
- ユーザーシミュレーションエージェントによるフィードバックと、Dockerサンドボックスによる自動評価システムを構築し、人間の介入なしで大規模な評価を可能にした。
- 実験の結果、商用モデル(平均48.4%)がオープンソースモデル(32.1%)を上回ったが、全体として成功率は低く、長期的なタスク遂行には依然として大きな課題があることが判明した。
- モデルごとに得意なツールや自己修正能力に差があり、特定のフレームワークとの相性(ホームフィールド・アドバンテージ)が存在することも示唆された。