要点テキストから画像を生成する…
解説
ねえねえ智也くん!この『VideoThinker』って論文、タイトルがかっこよくない?動画を考える人……つまり、動画の哲学者ってことかな!?
哲学者じゃないよ。これは、AIが動画を理解するときに、ただ眺めるんじゃなくて「ツール」を使って能動的に探索する仕組みについての研究だね。
ツール?AIがハンマーとか虫眼鏡を持って動画の中に入るの?
物理的な道具じゃないよ。今のAIって、長い動画を理解するのがすごく苦手なんだ。動画全体からパラパラと静止画を抜き出すだけだから、大事な一瞬を見逃しちゃうことが多いんだよね。
あー、パラパラ漫画のページを飛ばしすぎて、犯人が誰かわからなくなる感じだ!
そう、まさにそれ。そこでこの論文は、AIに「検索ツール」と「ズームツール」を持たせたんだ。まず動画全体から怪しい場所を検索して、見つけたらそこだけを詳しくズームして見る。これを繰り返して答えに辿り着くんだよ。
なるほど!探偵さんみたいだね。でも、AIにそんな難しいこと、どうやって教えるの?
そこがこの研究の賢いところでね。「合成データ」を使っているんだ。まず、動画の内容を全部文字(キャプション)に書き起こす。その文字情報を使って、すごく頭の良いLLMに『どうツールを使えば正解できるか』という思考のプロセスを作らせるんだよ。
文字で予行演習させるってこと?
そう。その後に、文字の部分を実際の動画の映像に差し替えて、VideoThinkerに学習させるんだ。これで、映像を直接見ながらツールを使いこなす能力が身につくってわけ。
すごーい!それで、その探偵AIの実力はどうだったの?
長尺動画のテストで、今までのモデルより10%以上もスコアが上がったんだ。特に、動画のどこに何があるかを探し出す能力がめちゃくちゃ高い。他の強力なモデルと比べても圧倒的だよ。
10%も!それは大事件だね!これがあれば、防犯カメラの映像から迷子を探すのも一瞬でできちゃうかも?
そうだね。映画の特定のシーンを探したり、スポーツの試合のハイライトを自動で作ったり、応用範囲はすごく広いと思う。ただ、まだ課題もあって、ツールを使う回数が増えると計算に時間がかかるし、複雑すぎる指示には混乱することもあるみたいだ。
ふむふむ、探偵さんも考えすぎると疲れちゃうんだね。これからはもっと効率よく、パパッと解決できるようになるのかな?
これからは、もっと少ないステップで正解に辿り着く方法や、音声情報をもっとうまく組み合わせる研究が進むだろうね。動画理解のスタンダードが変わるかもしれないよ。
よーし、私もVideoThinkerを見習って、智也くんの隠してるおやつを『時間的検索』で見つけ出しちゃうぞー!
勝手に人の部屋を検索するな。あと、おやつなんて隠してないから無駄だよ。
要点
- 従来のVideoLLMは長い動画を等間隔にサンプリングして処理するため、重要なシーンを見逃したり情報の欠落が発生したりするという課題があった。
- VideoThinkerは、AIが「ツール」を自律的に使いこなすエージェントとして振る舞うことで、動画内の重要な箇所を特定し、詳細に分析する能力を持つ。
- 「時間的検索(Temporal Retrieval)」で怪しい場面を探し、「時間的ズーム(Temporal Zoom)」でその場面を詳しく見るという、人間のような探索プロセスを導入した。
- 学習データとして、強力なLLMに動画のキャプション(説明文)を使ってツール利用の思考プロセスを生成させ、それを実際の動画フレームに置き換える「合成データ生成手法」を提案した。
- 複数の長尺動画ベンチマークにおいて、既存のVideoLLMやLLMエージェントを大幅に上回る精度を達成した。