解説

AMI HAPPY

ねえねえ智也くん!この『VideoThinker』って論文、タイトルがかっこよくない?動画を考える人……つまり、動画の哲学者ってことかな!?

TOMOYA NEUTRAL

哲学者じゃないよ。これは、AIが動画を理解するときに、ただ眺めるんじゃなくて「ツール」を使って能動的に探索する仕組みについての研究だね。

AMI SURPRISED

ツール?AIがハンマーとか虫眼鏡を持って動画の中に入るの?

TOMOYA NEUTRAL

物理的な道具じゃないよ。今のAIって、長い動画を理解するのがすごく苦手なんだ。動画全体からパラパラと静止画を抜き出すだけだから、大事な一瞬を見逃しちゃうことが多いんだよね。

AMI HAPPY

あー、パラパラ漫画のページを飛ばしすぎて、犯人が誰かわからなくなる感じだ!

TOMOYA NEUTRAL

そう、まさにそれ。そこでこの論文は、AIに「検索ツール」と「ズームツール」を持たせたんだ。まず動画全体から怪しい場所を検索して、見つけたらそこだけを詳しくズームして見る。これを繰り返して答えに辿り着くんだよ。

AMI SURPRISED

なるほど!探偵さんみたいだね。でも、AIにそんな難しいこと、どうやって教えるの?

TOMOYA NEUTRAL

そこがこの研究の賢いところでね。「合成データ」を使っているんだ。まず、動画の内容を全部文字(キャプション)に書き起こす。その文字情報を使って、すごく頭の良いLLMに『どうツールを使えば正解できるか』という思考のプロセスを作らせるんだよ。

AMI HAPPY

文字で予行演習させるってこと?

TOMOYA NEUTRAL

そう。その後に、文字の部分を実際の動画の映像に差し替えて、VideoThinkerに学習させるんだ。これで、映像を直接見ながらツールを使いこなす能力が身につくってわけ。

AMI HAPPY

すごーい!それで、その探偵AIの実力はどうだったの?

TOMOYA NEUTRAL

長尺動画のテストで、今までのモデルより10%以上もスコアが上がったんだ。特に、動画のどこに何があるかを探し出す能力がめちゃくちゃ高い。他の強力なモデルと比べても圧倒的だよ。

AMI HAPPY

10%も!それは大事件だね!これがあれば、防犯カメラの映像から迷子を探すのも一瞬でできちゃうかも?

TOMOYA NEUTRAL

そうだね。映画の特定のシーンを探したり、スポーツの試合のハイライトを自動で作ったり、応用範囲はすごく広いと思う。ただ、まだ課題もあって、ツールを使う回数が増えると計算に時間がかかるし、複雑すぎる指示には混乱することもあるみたいだ。

AMI HAPPY

ふむふむ、探偵さんも考えすぎると疲れちゃうんだね。これからはもっと効率よく、パパッと解決できるようになるのかな?

TOMOYA NEUTRAL

これからは、もっと少ないステップで正解に辿り着く方法や、音声情報をもっとうまく組み合わせる研究が進むだろうね。動画理解のスタンダードが変わるかもしれないよ。

AMI HAPPY

よーし、私もVideoThinkerを見習って、智也くんの隠してるおやつを『時間的検索』で見つけ出しちゃうぞー!

TOMOYA NEUTRAL

勝手に人の部屋を検索するな。あと、おやつなんて隠してないから無駄だよ。

要点

  • 従来のVideoLLMは長い動画を等間隔にサンプリングして処理するため、重要なシーンを見逃したり情報の欠落が発生したりするという課題があった。
  • VideoThinkerは、AIが「ツール」を自律的に使いこなすエージェントとして振る舞うことで、動画内の重要な箇所を特定し、詳細に分析する能力を持つ。
  • 「時間的検索(Temporal Retrieval)」で怪しい場面を探し、「時間的ズーム(Temporal Zoom)」でその場面を詳しく見るという、人間のような探索プロセスを導入した。
  • 学習データとして、強力なLLMに動画のキャプション(説明文)を使ってツール利用の思考プロセスを生成させ、それを実際の動画フレームに置き換える「合成データ生成手法」を提案した。
  • 複数の長尺動画ベンチマークにおいて、既存のVideoLLMやLLMエージェントを大幅に上回る精度を達成した。