解説

AMI HAPPY

ねえ、トモヤ!『AppWorld: アプリと人々の制御可能な世界』っていう論文、面白そうだね!内容教えてくれない?

TOMOYA NEUTRAL

もちろん!この論文は、自律エージェントが日常のデジタルタスクをこなすための新しいベンチマークを提案してるんだ。今までのベンチマークは、単純なAPI呼び出しのタスクしか扱ってなかったから、もっと複雑なタスクが必要だったんだ。

AMI SURPRISED

へぇ、そうなんだ!自律エージェントって、具体的にはどんなことをするの?

TOMOYA NEUTRAL

例えば、食料品を注文したり、メッセージを送ったりするために、複数のアプリを使って、環境とやり取りしながらコードを生成するんだ。これが結構難しいんだよ。

AMI CURIOUS

なるほど!それで、AppWorldエンジンって何なの?

TOMOYA NEUTRAL

AppWorldエンジンは、9つのアプリを操作できる環境を作っていて、約100人の架空のユーザーの生活をシミュレートしてるんだ。これにより、リアルなデジタル活動を再現できるんだよ。

AMI HAPPY

すごい!じゃあ、評価実験はどうだったの?

TOMOYA NEUTRAL

評価実験では、最先端のLLMであるGPT4Oが通常のタスクの約49%と挑戦的なタスクの約30%しか解決できなかったんだ。他のモデルはもっと低い成功率だったよ。

AMI CURIOUS

それって、すごく難しいってことだね!この研究の意義は何なの?

TOMOYA NEUTRAL

この研究は、インタラクティブなコーディングエージェントの限界を押し広げる可能性があるんだ。将来的には、もっと複雑なタスクをこなせるエージェントが登場するかもしれない。

AMI CURIOUS

でも、何か課題もあるんじゃない?

TOMOYA NEUTRAL

そうだね、まだまだ課題は多い。例えば、エージェントが予期しない変更を引き起こす可能性があるから、そこをどうにかしないといけない。

AMI HAPPY

なるほど、未来の研究が楽しみだね!ところで、トモヤはアプリの世界に住んでるの?

TOMOYA NEUTRAL

いや、住んでないけど、アプリの中で迷子になったら大変だな。

要点

自律エージェントが日常のデジタルタスクを処理するためには、複数のアプリを操作し、環境とのインタラクションに基づいて複雑なコードを生成する必要がある。

既存のベンチマークは単純なAPI呼び出しのタスクしかカバーしておらず、これが問題である。

AppWorldエンジンを構築し、9つのアプリを操作可能にし、約100人の架空のユーザーの生活をシミュレートしたデジタル活動を用意した。

AppWorldベンチマークは750の多様で挑戦的なタスクを提供し、異なる方法でタスクを完了することをサポートする。

最先端のLLMであるGPT4Oは、通常のタスクの約49%と挑戦的なタスクの約30%しか解決できなかった。

参考論文: http://arxiv.org/abs/2407.18901v1