映画の「誰だっけ？」をAIが解決！長編ストーリーを完璧に要約する新技術「MovieTeller」

2月 28 2026

解説

ねえねえ智也くん！この『MovieTeller』っていう論文のタイトル、すっごくワクワクしない？AIが映画のストーリーを語ってくれる魔法の道具かなにか？

魔法じゃないよ。これは、長い映画の内容をAIが正確に理解して、あらすじを自動で作るための新しい仕組みについての研究だね。

えー、でも今のAIなら映画くらいパパっと見て「面白かった！」とか言えちゃうんじゃないの？

それが意外と難しいんだ。今のVLM、つまり画像と文字を同時に扱えるモデルでも、2時間の映画となると話は別だよ。途中で「この人誰だっけ？」って混乱したり、話の前後がつながらなくなったりするんだ。

あはは、それ私と一緒だ！私も長い映画だと、途中で出てきたおじさんが誰か分からなくなっちゃうもん。

……亜美さんと一緒じゃ困るんだよ。AIの場合、同じキャラクターをずっと同じ名前で呼び続ける「IDの一貫性」が保てないのが大きな課題なんだ。さっきまで「主人公」って呼んでたのに、次のシーンでは「知らない男」って書いちゃったりする。

それは困るね！どうやって解決するの？

そこで「MovieTeller」の出番だよ。この研究の面白いところは、AIに全部任せるんじゃなくて、外部の「専門ツール」を借りてくる点なんだ。具体的には、顔認識専用のAIを道具として使うんだよ。

専門の道具？DIYみたいで楽しそう！

そうだね。まず顔認識ツールを使って、映画の各シーンに「誰が」「どこに」いるかを正確に特定する。これを「バウンディングボックス」っていう四角い枠の情報と一緒にVLMに教えるんだ。これを「事実に基づいた裏付け（Factual Grounding）」と呼んでいるよ。

なるほど！「この四角の中にいるのはトムくんだよ！」ってカンニングペーパーを渡してあげる感じだね？

例えはアレだけど、その通り。さらに、映画は長すぎるから一度に全部は見られない。だから「段階的抽象化」っていう方法を使うんだ。まずシーンごとの説明を作って、次にそれをまとめて「章」の要約にして、最後に映画全体のあらすじにする。三段階でギュッと濃縮していくんだよ。

へぇ〜！少しずつまとめていくなら、AIも「うわぁ、情報が多すぎてパンクする〜！」ってならないんだね。賢い！

そのおかげで、追加の学習をさせなくても、既存のモデルを組み合わせるだけで動くんだ。実験では、登場人物の一貫性が従来の117%もアップしたっていう結果が出ているよ。

117%！？すごい数字だね！人間が見た時も、やっぱりこっちの方がいいってなったの？

うん、人間による評価でも6割以上のケースでMovieTellerの方が好まれたんだ。物語としてのまとまりや、事実の正確さが評価されたんだろうね。

これがあれば、忙しい時でも映画の内容がすぐ分かって便利そう！将来はもっといろんなことに使えるのかな？

そうだね。視覚障害がある人への音声ガイド作成や、膨大な動画アーカイブの整理、おすすめ機能の精度向上なんかにも期待されているよ。ただ、まだ課題もあって、今は主要なキャラクターしか追いかけられないし、もっと複雑な感情の動きを捉えるにはさらなる研究が必要だね。

そっかぁ。じゃあ、私の複雑な乙女心も、いつかはこのAIで完璧に要約してもらえるかな？

亜美さんの場合は「お腹が空いた」と「眠い」の二言で、段階的抽象化するまでもなく要約が終わると思うけど。

投稿日:AI