解説

AMI HAPPY

ねえねえ智也くん!この『FeatureBench』っていう論文、タイトルがかっこいいから気になっちゃった!これってAIがオシャレな顔(フィーチャー)を作る練習でもしてるの?

TOMOYA NEUTRAL

……全然違う。ここで言う『フィーチャー』はソフトウェアの『新機能』のことだよ。AIがどれだけ複雑なプログラムの機能をゼロから、あるいは既存のコードに追加して作れるかを試すためのテストセットの話だね。

AMI SURPRISED

あ、そっちの機能か!でもAIって、もうプログラミングなんてお茶の子さいさいじゃないの?

TOMOYA NEUTRAL

それがそうでもないんだ。今までの評価手法は、すでにあるコードの『バグを直す』のがメインだった。でも、新しい機能を一から設計して、他のコードと矛盾しないように組み込むのは、バグ修正よりずっと難しいんだよ。

AMI HAPPY

なるほどねー。間違い探しより、新しいお話を作るほうが大変ってことか!この論文ではどうやってそれを調べてるの?

TOMOYA NEUTRAL

『FeatureBench』は、実際のGitHubにある有名なプロジェクトから、自動でタスクを作り出す仕組みを作ったんだ。具体的には、ユニットテストっていう『プログラムが正しく動くか確認するテスト』を使って、そのテストを通るために必要なコードを特定するんだよ。

AMI AMI

自動でテストを作るなんて賢い!でも、どうやって必要なコードだけを見つけるの?

TOMOYA NEUTRAL

『依存関係グラフ』っていうのを使うんだ。プログラムの中で、どの関数がどのデータを使っているかっていう繋がりを地図みたいに可視化する。これを使って、新機能に関係する部分だけを抜き出して、AIに『これを実装してみて』って問題を出すんだよ。

AMI HAPPY

へー!その地図があれば、AIも迷子にならないで済むね!で、結果はどうだったの?最強のAIなら余裕でしょ?

TOMOYA SURPRISED

驚くべきことに、バグ修正で74%も正解するClaude 4.5 Opusっていう超高性能なモデルでも、この新機能開発タスクではたった11%しか成功しなかったんだ。

AMI SURPRISED

ええっ!?11%!?テストで11点取ったらお母さんに怒られちゃうレベルだよ!

TOMOYA NEUTRAL

そうだね。つまり、今のAIは『壊れたものを直す』のは得意だけど、『新しい価値を積み上げる』能力はまだまだ足りないってことが証明されたんだ。これがこの論文の大きな意義だよ。

AMI HAPPY

そっか……。でも、これができるようになれば、人間が『こんな機能作って!』って言うだけで、AIが勝手にアプリを完成させてくれる未来が来るかもってこと?

TOMOYA NEUTRAL

まさにその通り。将来的にはAIが自律的な開発パートナーになる可能性がある。ただ、課題もあって、今はまだPythonっていう言語が中心だし、もっと複雑なシステム全体を理解させるには、さらに研究が必要だね。

AMI HAPPY

すごいね!じゃあ、AIが完璧になったら、私の代わりに智也くんへの誕生日プレゼントを選んでくれる機能も作ってもらおうかな!

TOMOYA ANGRY

……それはAIに頼らずに、自分の頭で考えてくれ。

要点

  • 従来のAIコーディング評価(SWE-benchなど)はバグ修正が中心だったが、FeatureBenchは「新機能の開発」というより複雑なタスクに焦点を当てている。
  • ユニットテストと依存関係グラフを活用し、実際のリポジトリから自動的に開発タスクを抽出するスケーラブルな手法を提案している。
  • 最新のAI(Claude 4.5 Opusなど)はバグ修正では高い成功率を出すが、このベンチマークの新機能開発タスクではわずか11%しか成功せず、大きな実力差が浮き彫りになった。
  • 実行ベースの評価環境を自動構築できるため、データの漏洩を防ぎつつ、AIを自律的な開発者へと進化させるための学習データとしても活用が期待される。