AIがあなたの目になる？一人称視点動画を完璧に理解する最新技術！

1月 18 2026

解説

ねえねえ智也くん！この論文のタイトルにある『エゴセントリック』って何？AIがすごくワガママになっちゃうってこと？

いや、全然違うよ。それは『一人称視点』、つまり自分の目線で撮った動画のことだね。GoProを頭につけて料理してる動画とかをイメージすると分かりやすいかな。

あ、そっちか！びっくりしたー。でも、AIにとって一人称視点の動画ってそんなに難しいの？

すごく難しいんだ。動画が長いし、キッチンみたいに複雑な場所だと『いつ、何をしたか』を正確に把握するのが大変なんだよ。質問も『どの順番で材料を入れた？』みたいに、時間の流れを理解してないと答えられないものが多いしね。

なるほどね。それで、この論文はどうやって解決したの？

主に4つの工夫をしてるんだ。まず1つ目は『前処理』。AIが迷わないように、質問を整理したり、選択肢の書き方を『1, 2, 3』から『A, B, C』に変えたりするだけで、かなり正解率が上がったらしいよ。

えっ、そんな細かいことで変わるの？AIって意外と繊細なんだね……。

そうだね。2つ目は『ファインチューニング』。これは特定の分野に詳しくなるための追加学習のことで、今回はキッチンの動画データを使ってAIを特訓したんだ。

料理の達人AIを目指したわけだ！3つ目は？

3つ目が一番重要で、『Temporal Chain-of-Thought（T-CoT）』っていう手法だよ。日本語で言うと『時間の思考の連鎖』かな。いきなり答えを出させるんじゃなくて、まず動画の特定の時間帯に注目させて、何が起きたか要約させてから、最後に質問に答えさせるんだ。

あ、一歩ずつ考えさせるってことだね！私もテストの時にやってるよ！

亜美さんがやってるのはただの迷走だと思うけど……。まあ、この手法のおかげで、長い動画でも大事なシーンを見逃さずに推論できるようになったんだ。最後は『後処理』で、AIの変な回答を掃除したり、5つのパターンで考えさせて多数決を取ったりして精度を固めてるよ。

すごい！それで、結果はどうだったの？

HD-EPIC VQAっていう難しいテストで41.6%の精度を出したんだ。これはあの有名なGemini Proとかよりも高いスコアなんだよ。

ええー！あの有名なAIに勝っちゃったの？大金星じゃん！

そうだね。ただ、まだ課題もあって、処理に時間がかかるからリアルタイムで動かすのは難しいし、人間レベルの理解にはまだ距離がある。今後はもっと効率よく、長い記憶を持てるようにするのが研究の方向性だね。

将来は、私が料理してる時に『亜美さん、さっき塩入れたからもう入れちゃダメだよ！』って教えてくれるAIができるかもね！

その前に、亜美さんの場合は『今持ってるのは砂糖だよ』って教えてくれるAIが必要だと思うけどね。

投稿日:AI