動画の迷子を救え！探偵のようにツールを使いこなすAI『VideoThinker』の秘密

1月 24 2026

解説

ねえねえ智也くん！この『VideoThinker』って論文、タイトルがかっこよくない？動画を考える人……つまり、動画の哲学者ってことかな！？

哲学者じゃないよ。これは、AIが動画を理解するときに、ただ眺めるんじゃなくて「ツール」を使って能動的に探索する仕組みについての研究だね。

ツール？AIがハンマーとか虫眼鏡を持って動画の中に入るの？

物理的な道具じゃないよ。今のAIって、長い動画を理解するのがすごく苦手なんだ。動画全体からパラパラと静止画を抜き出すだけだから、大事な一瞬を見逃しちゃうことが多いんだよね。

あー、パラパラ漫画のページを飛ばしすぎて、犯人が誰かわからなくなる感じだ！

そう、まさにそれ。そこでこの論文は、AIに「検索ツール」と「ズームツール」を持たせたんだ。まず動画全体から怪しい場所を検索して、見つけたらそこだけを詳しくズームして見る。これを繰り返して答えに辿り着くんだよ。

なるほど！探偵さんみたいだね。でも、AIにそんな難しいこと、どうやって教えるの？

そこがこの研究の賢いところでね。「合成データ」を使っているんだ。まず、動画の内容を全部文字（キャプション）に書き起こす。その文字情報を使って、すごく頭の良いLLMに『どうツールを使えば正解できるか』という思考のプロセスを作らせるんだよ。

文字で予行演習させるってこと？

そう。その後に、文字の部分を実際の動画の映像に差し替えて、VideoThinkerに学習させるんだ。これで、映像を直接見ながらツールを使いこなす能力が身につくってわけ。

すごーい！それで、その探偵AIの実力はどうだったの？

長尺動画のテストで、今までのモデルより10%以上もスコアが上がったんだ。特に、動画のどこに何があるかを探し出す能力がめちゃくちゃ高い。他の強力なモデルと比べても圧倒的だよ。

10%も！それは大事件だね！これがあれば、防犯カメラの映像から迷子を探すのも一瞬でできちゃうかも？

そうだね。映画の特定のシーンを探したり、スポーツの試合のハイライトを自動で作ったり、応用範囲はすごく広いと思う。ただ、まだ課題もあって、ツールを使う回数が増えると計算に時間がかかるし、複雑すぎる指示には混乱することもあるみたいだ。

ふむふむ、探偵さんも考えすぎると疲れちゃうんだね。これからはもっと効率よく、パパッと解決できるようになるのかな？

これからは、もっと少ないステップで正解に辿り着く方法や、音声情報をもっとうまく組み合わせる研究が進むだろうね。動画理解のスタンダードが変わるかもしれないよ。

よーし、私もVideoThinkerを見習って、智也くんの隠してるおやつを『時間的検索』で見つけ出しちゃうぞー！

勝手に人の部屋を検索するな。あと、おやつなんて隠してないから無駄だよ。

従来のVideoLLMは長い動画を等間隔にサンプリングして処理するため、重要なシーンを見逃したり情報の欠落が発生したりするという課題があった。
VideoThinkerは、AIが「ツール」を自律的に使いこなすエージェントとして振る舞うことで、動画内の重要な箇所を特定し、詳細に分析する能力を持つ。
「時間的検索（Temporal Retrieval）」で怪しい場面を探し、「時間的ズーム（Temporal Zoom）」でその場面を詳しく見るという、人間のような探索プロセスを導入した。
学習データとして、強力なLLMに動画のキャプション（説明文）を使ってツール利用の思考プロセスを生成させ、それを実際の動画フレームに置き換える「合成データ生成手法」を提案した。
複数の長尺動画ベンチマークにおいて、既存のVideoLLMやLLMエージェントを大幅に上回る精度を達成した。

投稿日:AI