要点テキストから画像を生成する…
解説
ねえねえ智也くん!この「MineNPC-Task」っていう論文、マイクラのこと書いてあるよね?AIがマイクラで遊んでくれるの?
そうだよ。これはマイクラの中で、人間と一緒に作業するAIエージェントをどうやって正しく評価するか、っていう研究なんだ。
評価?「このAIは100点!」とか決めるってこと?マイクラなら、ダイヤモンドをたくさん掘れたら勝ちじゃないの?
そんなに単純じゃないんだ。今までの研究だと、AIがゲームの裏側のデータを見て、どこに何があるか全部知っている状態で動いていることが多かったんだよ。それって、いわば「カンニング」だよね。
えー!ずるい!それじゃあ、本当のすごさがわからないじゃん!
その通り。だからこの論文では「限定知識ポリシー」っていうのを決めて、AIもプレイヤーと同じように、自分の周りに見えているものだけで判断するようにしたんだ。しかも、タスクもAIが勝手に作ったんじゃなくて、プロのプレイヤーが実際に出したお願いを元にしているんだよ。
「鉄のツルハシあげるから石炭取ってきて」みたいな感じ?
そうそう。でも、もしAIが「どこで掘ればいいの?」ってわからなかったらどうすると思う?
うーん、適当に掘り進めて迷子になっちゃうとか?
普通はそうだよね。でもこの手法では「混合イニシアチブ」っていう考え方を使っていて、AIがわからないことがあったら人間に質問するんだ。「近くの洞窟でいい?」みたいにね。これで人間と協力してタスクを進められるようになる。
へぇー!AIがちゃんと聞いてくれるなら、勝手に家を爆破されたりしなくて安心だね!具体的にはどうやって動いてるの?
まず、AIが「計画」を立てるんだ。次に、足りない情報があれば質問する。その後に「Mineflayer」っていうツールを使って、実際にマイクラを操作するためのプログラムをAIがその場で作って実行するんだよ。
自分でプログラムまで作っちゃうの!?すごすぎる……。で、結果はどうだったの?完璧にできた?
GPT-4oを使って実験したんだけど、成功率はだいたい67%くらいだった。失敗の原因は、プログラムのミスだったり、アイテムの扱いを間違えたり、迷子になったり……。まだまだ課題は多いね。
3回に1回は失敗しちゃうんだ。意外とドジっ子なんだね、AIくん。
そうだね。特に「メモリ」、つまり記憶の使い方が課題だって言われている。さっき教えたことをずっと覚えておくのが苦手なんだ。これが改善されれば、もっと「あうんの呼吸」で動けるパートナーになるはずだよ。
将来は、私が寝てる間にAIが自動で巨大な私のお城を建ててくれるようになるかな?
そのためには、まず君がAIに正確な指示を出せるようにならないとね。AIが質問攻めにしてきて、君の方が先に疲れちゃうかもよ。
あ、それは困る!じゃあ、AIに「私の気持ちを察して全部やって」ってお願いするメモリを追加してよ!
それは「メモリ」じゃなくて「超能力」の分野だよ。まずは自分でツルハシを持ちなさい。
要点
- MinecraftにおけるAIエージェントの能力を、より公平かつ実践的に評価するためのベンチマーク「MineNPC-Task」を提案した。
- 従来の評価手法はAIがゲームの内部データにアクセスする「カンニング」が許されていたが、本研究ではプレイヤーと同じ情報のみを利用する「限定知識ポリシー」を導入した。
- タスクはAIが自動生成したものではなく、熟練プレイヤーが実際に出した指示をテンプレート化して作成されている。
- AIが一方的に動くのではなく、不明な点を人間に質問したり、計画を提示したりする「混合イニシアチブ」の枠組みを採用している。
- GPT-4oを用いた実験では、コード生成やナビゲーションに課題があることが判明し、今後のメモリ機能の改善の必要性が示唆された。