AIが100種類のゲームに挑戦！「AI GAMESTORE」で見えた知能の壁

2月 21 2026

解説

ねえねえ智也くん！この『AI GAMESTORE』って論文、面白そう！AIがゲーム屋さんでも始めるの？

いや、そうじゃないよ。これはAIがどれくらい「人間みたいに賢いか」を、ゲームを使って正しく測ろうっていう研究なんだ。

えー、ゲームで知能テスト？楽しそうだけど、今のAIってチェスとか囲碁で人間に勝ってるし、もう十分賢いんじゃないの？

そこが問題なんだ。今のAIのテストは、特定のルールが決まった狭い範囲のものばかりなんだよ。しかも、テストの内容がネットに公開されてるから、AIがそれを暗記しちゃう「データ汚染」の問題もある。

あー、カンニングみたいな感じか！じゃあ、この論文はどうやって解決しようとしてるの？

「人間のゲームのマルチバース」っていう考え方を使うんだ。人間が楽しむために作ったあらゆるゲームは、現実世界の複雑さを抽象化したものだよね。だから、ありとあらゆるゲームを初見でプレイできれば、それは汎用的な知能がある証拠になるってわけ。

マルチバース！かっこいい！でも、そんなにたくさんのゲームをどうやって用意するの？

そこで『AI GAMESTORE』の出番だよ。これは、App StoreやSteamにある人気のゲームを元にして、AIが自動で新しいゲーム環境を作り出すシステムなんだ。LLMを使ってゲームの仕組みを解析して、AIが評価しやすい形に変換するんだよ。

へぇー！AIがAIのためのテストを自作するってこと？

正確には、人間もチェックに入る「ヒューマン・イン・ザ・ループ」っていう仕組みだけどね。これで、常に新しくて多様なゲームでAIをテストできる。今回は試しに100種類のゲームを作って、最新のVLM、つまり画像も理解できるAIをテストしたんだ。

結果はどうだった？AIなら余裕でクリアしちゃった？

それが全然。最新のモデルでも、人間の平均スコアの10%も取れなかったんだ。特に、次に何が起こるか予想する「世界モデル」の構築や、長期的な記憶、計画を立てるのが苦手だってことが分かったよ。

えっ、そんなに低いの？AIって意外とドジっ子なんだね。私でも勝てそう！

まあ、人間は数分プレイするだけでコツを掴むけど、AIにはそれが難しいんだ。この研究の意義は、AIが「暗記」じゃなくて「学習」して問題を解く能力を、スケーラブルに評価できる場所を作ったことにあるんだよ。

なるほどねー。これからもっと難しいゲームが出てきたら、AIももっと進化しなきゃいけないんだ！

そうだね。ただ、今のAIは1回動かすのに時間がかかりすぎるっていう課題もある。リアルタイムのゲームだと、AIが考えてる間にゲームオーバーになっちゃうからね。今後はもっと高速で、かつ人間みたいに効率よく学ぶモデルが必要になるだろうね。

よし！じゃあ私もAIに負けないように、今日から1日10時間はゲームして修行するね！これも研究のためだもん！

それはただ遊びたいだけだろ。勉強もしろよ。

従来のAIベンチマークは特定のタスクに特化しすぎており、人間のような汎用的な知能（AGI）を評価するには不十分である。
「人間のゲームのマルチバース（多元宇宙）」という概念を提案。人間が楽しむために設計したあらゆるゲームをプレイできる能力こそが、現実世界での適応能力の指標になるという考え方。
「AI GAMESTORE」というプラットフォームを構築。LLMと人間を組み合わせて、App StoreやSteamにある既存のゲームをAI評価用の標準化された環境に自動で作り変える仕組み。
100種類のゲームを用いた実験で、最新のVLM（視覚と言語を扱うモデル）を評価。結果、AIは人間の平均スコアの10%未満しか出せず、特に記憶や計画、世界モデルの構築に大きな課題があることが判明した。
このプラットフォームは、AIが人間のように未知の環境で学習し、思考する能力を測るための、拡張可能で終わりのない評価指標となる。

投稿日:AI