アプリの世界で迷子にならないために！

7月 29 2024

解説

AMI HAPPY

ねえ、トモヤ！『AppWorld: アプリと人々の制御可能な世界』っていう論文、面白そうだね！内容教えてくれない？

TOMOYA NEUTRAL

もちろん！この論文は、自律エージェントが日常のデジタルタスクをこなすための新しいベンチマークを提案してるんだ。今までのベンチマークは、単純なAPI呼び出しのタスクしか扱ってなかったから、もっと複雑なタスクが必要だったんだ。

AMI SURPRISED

へぇ、そうなんだ！自律エージェントって、具体的にはどんなことをするの？

TOMOYA NEUTRAL

例えば、食料品を注文したり、メッセージを送ったりするために、複数のアプリを使って、環境とやり取りしながらコードを生成するんだ。これが結構難しいんだよ。

AMI CURIOUS

なるほど！それで、AppWorldエンジンって何なの？

TOMOYA NEUTRAL

AppWorldエンジンは、9つのアプリを操作できる環境を作っていて、約100人の架空のユーザーの生活をシミュレートしてるんだ。これにより、リアルなデジタル活動を再現できるんだよ。

AMI HAPPY

すごい！じゃあ、評価実験はどうだったの？

TOMOYA NEUTRAL

評価実験では、最先端のLLMであるGPT4Oが通常のタスクの約49%と挑戦的なタスクの約30%しか解決できなかったんだ。他のモデルはもっと低い成功率だったよ。

AMI CURIOUS

それって、すごく難しいってことだね！この研究の意義は何なの？

TOMOYA NEUTRAL

この研究は、インタラクティブなコーディングエージェントの限界を押し広げる可能性があるんだ。将来的には、もっと複雑なタスクをこなせるエージェントが登場するかもしれない。

AMI CURIOUS

でも、何か課題もあるんじゃない？

TOMOYA NEUTRAL

そうだね、まだまだ課題は多い。例えば、エージェントが予期しない変更を引き起こす可能性があるから、そこをどうにかしないといけない。

AMI HAPPY

なるほど、未来の研究が楽しみだね！ところで、トモヤはアプリの世界に住んでるの？

TOMOYA NEUTRAL

いや、住んでないけど、アプリの中で迷子になったら大変だな。

自律エージェントが日常のデジタルタスクを処理するためには、複数のアプリを操作し、環境とのインタラクションに基づいて複雑なコードを生成する必要がある。

既存のベンチマークは単純なAPI呼び出しのタスクしかカバーしておらず、これが問題である。

AppWorldエンジンを構築し、9つのアプリを操作可能にし、約100人の架空のユーザーの生活をシミュレートしたデジタル活動を用意した。

AppWorldベンチマークは750の多様で挑戦的なタスクを提供し、異なる方法でタスクを完了することをサポートする。

最先端のLLMであるGPT4Oは、通常のタスクの約49%と挑戦的なタスクの約30%しか解決できなかった。

投稿日:AI