要点テキストから画像を生成する…
解説
ねえねえ智也くん!この『VirtualEnv』っていう論文のタイトル、なんかゲームっぽくて面白そう!これって何の研究なの?
お、そこに目を付けるなんて珍しいね。これは『身体性AI』、つまりロボットみたいに体を持って現実世界で活動するAIを訓練するための、ものすごく高性能なシミュレーターについての論文だよ。
しんたいせいAI……?AIに体がつくの?じゃあ、私の代わりに部屋の掃除をしてくれるロボットとかが作れるようになるってこと?
まあ、究極的にはそういうことだね。でも、今のAIを現実で動かすのは危ないしお金もかかる。だから、まずはコンピューターの中に本物そっくりの世界を作って、そこで練習させる必要があるんだ。それがシミュレーターの役割だよ。
なるほど!でも、今までもそういうシミュレーターってあったんじゃないの?
鋭いね。確かにあったけど、今までのやつは家の中だけとか、決まった物しか動かせないとか、規模が小さかったんだ。この『VirtualEnv』はUnreal Engine 5っていう最新のゲームエンジンを使っていて、街全体や屋外まで再現できるし、動かせるアイテムも2万種類以上あるんだよ。
2万種類!すごーい!それだけあれば、AIも飽きずに練習できそうだね。あ、でも、どうやってAIに命令するの?プログラミングとか難しそう……。
そこがこの論文の面白いところで、自然言語、つまり私たちが普段話す言葉で指示が出せるんだ。「脱出ゲームを作って」って言えば、AIが自動で謎解きやアイテムを配置した部屋を作ってくれる機能まであるんだよ。
ええっ!AIが脱出ゲームを作るの?面白そう!私もやってみたい!
亜美さんが遊ぶんじゃなくて、AIがその脱出ゲームを解けるかテストするんだよ。鍵を探して、ヒントを読んで、道具を組み合わせて……っていう複雑な手順をAIが自分で考えなきゃいけない。これを評価するために『シーングラフ』っていう仕組みを使っているんだ。
しーんぐらふ?また難しい言葉が出てきた!
簡単に言うと、部屋のどこに何があって、それがどんな状態かっていう情報の地図みたいなものだよ。「ドアは閉まっている」とか「机の上に鍵がある」っていう関係性をAIが理解しやすく整理したデータのことだね。
あー、なるほど!地図を見ながら謎解きする感じだね。で、実験の結果はどうだったの?AIはちゃんと脱出できた?
最新のモデルを使って実験した結果、簡単なタスクはできるけど、複雑な謎解きや複数のAIで協力する場面ではまだ課題があることが分かったんだ。でも、このプラットフォームを使えば、何が苦手なのかがはっきり分かるようになる。
へぇ〜、AIもまだ修行中なんだね。これが進化したら、将来はどうなるの?
もっと賢くなって、言葉だけで複雑な家事や仕事をこなすロボットが実現するかもしれない。ゲームの世界でも、プレイヤーの行動に合わせてリアルタイムで新しいクエストを作るAIキャラクターが登場するかもね。
夢が広がるね!でも、課題とかはないの?完璧なの?
いや、まだ物理的なシミュレーションの正確さとか、もっともっと広い世界をどう効率よく作るかとか、課題はたくさんあるよ。これからの研究でそこを詰めていく必要があるんだ。
そっかぁ。じゃあ、まずは私の部屋をシミュレーターで再現して、AIに片付けの練習をさせようかな!脱出ゲームより難しい超難問だよ!
それはAIを訓練する前に、まず君が自分で片付けろよ。
要点
- Unreal Engine 5を基盤とした、身体性AI(Embodied AI)のための次世代シミュレーションプラットフォーム「VirtualEnv」を開発。
- 2万点以上のオブジェクトと、屋内・屋外を含む広大な環境を備え、従来のシミュレーターの限界(規模や多様性の不足)を克服。
- 自然言語による指示で環境を編集したり、タスク(脱出ゲームなど)を自動生成したりする機能を搭載。
- LLMを搭載したエージェントが、複雑な推論や計画、マルチエージェントでの協力が必要な課題にどれだけ対応できるかを評価可能。