見て、理解して、歩く！ロボットが動画から動きを学ぶ「RoboMirror」の衝撃

12月 31 2025

解説

ねえねえ智也くん！この『RoboMirror』って論文、タイトルがかっこいいね！ロボットが鏡を見てダンスでもするの？

ダンスじゃないよ。これはヒューマノイドロボットが、人間が動いている動画を見て、その歩き方や動きを真似するための新しい仕組みについての研究だね。

動画を見て真似するだけなら、私でもできるよ！「はい、ひょっこりはん！」みたいな？

古いな……。まあ、人間には簡単だけど、ロボットには難しいんだ。今までのロボットは、動画の中の「関節の角度」を必死に計算して、それを自分の関節に当てはめようとしていたんだよ。これを「ポーズ模倣」って言うんだけど、計算が大変で遅いし、ちょっとしたミスで転んじゃうんだ。

あー、数字ばっかり見てて、肝心の「どう動きたいか」を分かってないってこと？

その通り。鋭いね。この論文のポイントは「真似する前に理解しろ」ってことなんだ。VLM、つまり目を持ったAIを使って、動画から「この人は今、こういう意図で動いているんだな」っていう情報を抜き出すんだよ。

「理解」って具体的にどうやるの？ロボットの中に小さいおじさんが入って考えてるわけじゃないでしょ？

おじさんはいないよ。まず、VLMが動画を見て「潜在表現（Latent）」っていう、情報の要約みたいなものを作るんだ。次に、その要約から「ロボットがどう動くべきか」という動きのデータを、拡散モデルを使って作り出すんだよ。

拡散モデル！画像生成AIとかで有名なやつだよね？ノイズから綺麗な絵を作るみたいな。

そう。それの動き版だね。ノイズ混じりの動きから、物理的に自然で滑らかな歩行データを復元するんだ。これのおかげで、人間とロボットの体の形が違っても、うまく変換（リターゲティング）する必要がなくなるんだよ。

へぇー！じゃあ、私がカメラをつけて歩いてる動画を見せれば、ロボットも同じように歩いてくれるの？

できるよ。この研究では「一人称視点」の動画にも対応しているから、テレプレゼンス、つまり遠隔操作みたいなことも可能になる。しかも、従来のやり方より反応速度が80%も速くなって、9秒かかってたのが1.8秒くらいになったんだ。

80%オフ！？スーパーのタイムセールよりすごいじゃん！成功率も上がったの？

そうだね、タスクの成功率も3.7%向上した。数字で見ると小さく感じるかもしれないけど、ロボットの世界ではこの差が安定性に大きく関わるんだよ。

すごいなぁ。これがあれば、将来はロボットに「この動画の通りに掃除しといて！」って頼めるようになるのかな？

将来的にはそうなるかもね。今はまだ歩行がメインだけど、手先の細かい作業にも応用できる可能性がある。ただ、まだ複雑な環境や、動画に映っていない部分の推測には限界があるから、そこが今後の研究課題だね。

なるほどね！じゃあ、私が全力でズッコケる動画を学習させたら、ロボットも完璧にズッコケてくれるんだね！

……高価なロボットを壊すような動画は見せないでくれ。もっと役に立つ動きを教えてあげてよ。

従来のロボット制御は、人間の関節の動きを数値的に追跡する「ポーズ模倣」に頼っており、動作の意図を理解していなかった。
RoboMirrorは、VLM（視覚言語モデル）を用いて動画から「動作の意図」を抽出し、それを理解してから動く「Understand Before You Imitate」を提案している。
一人称視点（カメラを装着した視点）と三人称視点（他人が動いている視点）の両方の動画から、ロボットの歩行動作を生成できる。
ポーズ推定やリターゲティング（人間からロボットへの動きの変換）を介さないため、処理の遅延を80%削減し、成功率も向上させた。
拡散モデル（Diffusion Model）を活用することで、物理的に自然で滑らかな動作生成を実現している。

投稿日:AI