解説

AMI HAPPY

智也くん!この『Code2World』っていう論文のタイトル、なんだかカッコよくない?世界をコードにするの?

TOMOYA NEUTRAL

ああ、これはスマホやPCの操作画面、つまりGUIの「次」を予測するAIの研究だよ。人間が「このボタンを押したら次の画面はこうなるはずだ」って頭の中でシミュレーションする能力を、AIに持たせようとしてるんだ。

AMI SURPRISED

へぇー!AIも「予知能力」が持てるようになるってこと?でも、なんでそれが大事なの?

TOMOYA NEUTRAL

大事なポイントだね。今のAIエージェントは、予測なしにいきなり操作しちゃうことが多いんだ。でも、もし「支払い確定」とか「データ削除」みたいな取り返しのつかない操作を間違えてやっちゃったら大変だろ?

AMI SURPRISED

うわ、それは怖い!先に「こうなるよ」って見せてくれたら安心だね。

TOMOYA NEUTRAL

そう。そのシミュレータを「世界モデル」と呼ぶんだけど、これまでの研究は「言葉で説明する」か「画像(ピクセル)を生成する」かのどっちかだった。でも、言葉だと見た目がわからないし、画像だと文字がぐちゃぐちゃになったりして正確さに欠けるんだよ。

AMI HAPPY

そこで「コード」の出番ってわけ?

TOMOYA NEUTRAL

その通り。HTMLみたいなコードなら、構造がカッチリ決まるし、ブラウザで読み込めば綺麗な画像(レンダリング)になる。この論文は、AIに「次の画面のHTMLコード」を書かせることで、正確で綺麗な予測を実現したんだ。

AMI NEUTRAL

なるほど!でも、AIにそんな複雑なコードをいきなり書かせるのって難しくない?

TOMOYA NEUTRAL

鋭いね。そこで彼らは「AndroidCode」っていう8万件以上のデータセットを自前で作ったんだ。まずGPT-5にコードを書かせて、それを画像にして元の画面と見比べて、ズレてたら修正させるっていう「視覚的フィードバック」の仕組みを使って高品質なデータを用意したんだよ。

AMI HAPPY

AIが自分で自分の間違いを直して学習データを作るなんて、賢いなぁ。学習方法も工夫してるの?

TOMOYA NEUTRAL

うん。まずSFT(教師あり微調整)でコードの書き方の基本を教えた後、「レンダリング認識型強化学習(RARL)」っていうのをやってる。これは、AIが書いたコードを実際に画像にして、その「見た目」と「操作のつじつま」が合ってるかを別のAIに判定させて、その結果を報酬として学習させる方法なんだ。

AMI SURPRISED

強化学習って、上手くできたら褒めて伸ばすみたいなやつだよね?見た目だけじゃなくて、ちゃんと操作の結果として正しいかもチェックするんだ!

TOMOYA NEUTRAL

そう。例えば「戻るボタンを押したのに画面が変わらない」みたいな論理的なミスもこれで防げるようになる。実験結果では、このCode2WorldはGPT-5やGeminiの最新モデルに勝るくらいの精度で次の画面を予測できたらしいよ。

AMI HAPPY

すごーい!それを使うと、AIエージェントはもっと賢くなるの?

TOMOYA NEUTRAL

実際、既存のAIエージェントにこのCode2Worldを「仮想の練習場」として使わせたら、Androidの操作タスクの成功率が10%近く上がったんだ。失敗する前にシミュレーションして、ダメそうならやり直すっていう「熟考」ができるようになったからだね。

AMI HAPPY

まさに「転ばぬ先の杖」だね!これがあれば、将来はどんなアプリも完璧に使いこなすAI執事ができるかも?

TOMOYA NEUTRAL

可能性はあるね。ただ、まだ課題もある。今はHTMLで表現してるけど、もっと複雑な動的コンテンツや、コード化しにくい特殊なUIをどう扱うかとか。今後はもっとリアルタイムで高速に予測できるモデルが求められるだろうね。

AMI HAPPY

ふむふむ。じゃあ、私の「今日の晩ごはん」もコードで予測して、失敗しないようにシミュレーションしてほしいな!

TOMOYA NEUTRAL

それは世界モデルじゃなくて、ただの献立アプリを使え。あと、君の食欲は予測不能だから無理だ。

要点

  • GUI(操作画面)の次状態を予測する世界モデル「Code2World」を提案。ピクセルやテキストではなく、HTMLコードを生成してレンダリングする手法を採用。
  • 8万件以上の高品質なGUI操作データセット「AndroidCode」を構築。GPT-5によるコード生成と視覚的フィードバックによる修正で精度を担保。
  • 「レンダリング認識型強化学習(RARL)」を導入。生成されたコードを実際に画像化し、見た目の正しさと操作の論理的整合性の両面からAIを訓練。
  • Code2World-8Bは、UI予測においてGPT-5やGemini-3-Pro-Imageに匹敵する性能を発揮。
  • 既存のGUIエージェントに組み込むことで、AndroidWorldでのナビゲーション成功率を大幅に向上(Gemini-2.5-Flashで+9.5%)させた。