AIが「未来のスマホ画面」をコードで描く？失敗を防ぐ最強のシミュレータ『Code2World』

2月 11 2026

解説

智也くん！この『Code2World』っていう論文のタイトル、なんだかカッコよくない？世界をコードにするの？

ああ、これはスマホやPCの操作画面、つまりGUIの「次」を予測するAIの研究だよ。人間が「このボタンを押したら次の画面はこうなるはずだ」って頭の中でシミュレーションする能力を、AIに持たせようとしてるんだ。

へぇー！AIも「予知能力」が持てるようになるってこと？でも、なんでそれが大事なの？

大事なポイントだね。今のAIエージェントは、予測なしにいきなり操作しちゃうことが多いんだ。でも、もし「支払い確定」とか「データ削除」みたいな取り返しのつかない操作を間違えてやっちゃったら大変だろ？

うわ、それは怖い！先に「こうなるよ」って見せてくれたら安心だね。

そう。そのシミュレータを「世界モデル」と呼ぶんだけど、これまでの研究は「言葉で説明する」か「画像（ピクセル）を生成する」かのどっちかだった。でも、言葉だと見た目がわからないし、画像だと文字がぐちゃぐちゃになったりして正確さに欠けるんだよ。

そこで「コード」の出番ってわけ？

その通り。HTMLみたいなコードなら、構造がカッチリ決まるし、ブラウザで読み込めば綺麗な画像（レンダリング）になる。この論文は、AIに「次の画面のHTMLコード」を書かせることで、正確で綺麗な予測を実現したんだ。

なるほど！でも、AIにそんな複雑なコードをいきなり書かせるのって難しくない？

鋭いね。そこで彼らは「AndroidCode」っていう8万件以上のデータセットを自前で作ったんだ。まずGPT-5にコードを書かせて、それを画像にして元の画面と見比べて、ズレてたら修正させるっていう「視覚的フィードバック」の仕組みを使って高品質なデータを用意したんだよ。

AIが自分で自分の間違いを直して学習データを作るなんて、賢いなぁ。学習方法も工夫してるの？

うん。まずSFT（教師あり微調整）でコードの書き方の基本を教えた後、「レンダリング認識型強化学習（RARL）」っていうのをやってる。これは、AIが書いたコードを実際に画像にして、その「見た目」と「操作のつじつま」が合ってるかを別のAIに判定させて、その結果を報酬として学習させる方法なんだ。

強化学習って、上手くできたら褒めて伸ばすみたいなやつだよね？見た目だけじゃなくて、ちゃんと操作の結果として正しいかもチェックするんだ！

そう。例えば「戻るボタンを押したのに画面が変わらない」みたいな論理的なミスもこれで防げるようになる。実験結果では、このCode2WorldはGPT-5やGeminiの最新モデルに勝るくらいの精度で次の画面を予測できたらしいよ。

すごーい！それを使うと、AIエージェントはもっと賢くなるの？

実際、既存のAIエージェントにこのCode2Worldを「仮想の練習場」として使わせたら、Androidの操作タスクの成功率が10%近く上がったんだ。失敗する前にシミュレーションして、ダメそうならやり直すっていう「熟考」ができるようになったからだね。

まさに「転ばぬ先の杖」だね！これがあれば、将来はどんなアプリも完璧に使いこなすAI執事ができるかも？

可能性はあるね。ただ、まだ課題もある。今はHTMLで表現してるけど、もっと複雑な動的コンテンツや、コード化しにくい特殊なUIをどう扱うかとか。今後はもっとリアルタイムで高速に予測できるモデルが求められるだろうね。

ふむふむ。じゃあ、私の「今日の晩ごはん」もコードで予測して、失敗しないようにシミュレーションしてほしいな！

それは世界モデルじゃなくて、ただの献立アプリを使え。あと、君の食欲は予測不能だから無理だ。

投稿日:AI