AIが360度パノラマを「立体」として理解する！？新技術PanoEnvの凄さ

2月 27 2026

解説

ねえねえ智也くん！この「PanoEnv」っていう論文、タイトルに3Dとかパノラマとか書いてあって面白そう！これって何の話なの？

ああ、これは360度パノラマ画像を使って、AIに「3D空間の知能」を持たせようっていう研究だよ。最近はVRとか自動運転でパノラマ画像がよく使われるけど、実はAIにとってパノラマを正しく理解するのはすごく難しいんだ。

えっ、そうなの？スマホでぐるぐる回して見るの、人間には簡単なのに！

人間は脳内で補正してるからね。パノラマ画像は「正距円筒図法（ERP）」っていう形式で保存されることが多いんだけど、地図のメルカトル図法みたいに、北極や南極に近い部分がびよーんと横に伸びちゃうんだ。この歪みのせいで、AIは物体の正確な大きさや距離を勘違いしちゃうんだよ。

なるほど、鏡に映った変な顔みたいになっちゃうんだね！じゃあ、この論文はどうやってそれを解決したの？

まず「PanoEnv-QA」っていう巨大なデータセットを作ったんだ。1.4万問以上のクイズが入っていて、全部に「この物体までの距離は何メートルか」とか「どっちの物体が体積が大きいか」っていう、正確な3Dの正解データがついているんだよ。

1.4万問！すごい量だね。でも、ただ問題を解かせるだけじゃダメなの？

いい質問だね。既存のモデルで試したら、自由記述の問題だと正解率が10%もいかなかったんだ。そこで「強化学習」を使ったんだよ。GRPOっていう手法を使って、AIが回答した内容が物理的に正しい3D空間の数値と合っていたら、報酬を与えるようにしたんだ。

強化学習って、いい子にしてたらおやつをあげるみたいな感じ？

まあ、概念的には近いかな。さらに「2段階カリキュラム」っていうのも導入していて、最初は簡単な○×クイズや選択肢問題で基礎を固めてから、難しい自由記述の練習をさせるんだ。いきなり難しいことをやらせて、今まで覚えていたことを忘れちゃう「破滅的忘却」を防ぐためだね。

スパルタ教育じゃなくて、ちゃんとステップアップさせてあげるんだね。それで、結果はどうだったの？

これがすごくてね。70億パラメータっていう比較的コンパクトなモデルなのに、その4倍以上大きい320億パラメータのモデルよりも高いスコアを出したんだ。特に自由記述の正解率は、学習前の2倍以上に跳ね上がったよ。

小さいのに大きい子に勝っちゃうなんて、まさに「小さくても頼れる」って感じだね！これって将来、何に役立つのかな？

例えば、お掃除ロボットが部屋のパノラマ写真を見て「あそこにあるソファは大きいから避けて通ろう」とか、VR空間で「この家具はあっちの壁より手前にある」って正確に判断できるようになる。より人間に近い空間感覚を持ったAIができるはずだよ。

すごい！じゃあ、私が部屋を散らかしてパノラマ写真がカオスになっても、AIなら「このゴミの山は体積が大きいから片付けるのに3時間かかる」って正確に絶望してくれるわけだね！

……絶望させるために研究してるわけじゃないんだけど。まずは自分で片付けなよ。

投稿日:AI