動画のウソを見逃さない！AIが「動きの違和感」でディープフェイクを見破る新技術

2月 27 2026

解説

ねえねえ智也くん！この『Beyond Static Artifacts』っていう論文のタイトル、なんか映画みたいでかっこよくない？これって何の話なの？

ああ、それは動画のディープフェイク、つまりAIで作られた偽造動画をどうやって見破るかっていう研究だよ。最近は本物そっくりの動画が簡単に作れちゃうから、社会的な問題になってるんだ。

ディープフェイクかぁ！でも、今のAIならパッと見て「あ、これ偽物だ！」ってすぐに見破れるんじゃないの？

それが意外と難しいんだ。今のVLM、つまり画像と言葉を理解するモデルは、1枚の画像の中にある「肌の質感が変」とか「輪郭がボケてる」っていう特徴を見つけるのは得意なんだけど、動画特有の「動きの不自然さ」を見落としがちなんだよね。

動きの不自然さ？例えば、瞬きが全然ないとか、喋ってるのに口の動きがズレてるとかそういうこと？

そう、まさにそれ。専門用語で『時間的な不整合（Temporal Inconsistency）』って言うんだけど、この論文はそこを重点的に鍛えるための『FAQ』っていう新しいテストセットを作ったんだ。

FAQって、よくある「よくある質問」のこと？

いや、この論文では『Forensic Answer-Questioning』の略。法医学的な質疑応答って意味だね。3つのステップでAIを賢くする仕組みになってるんだよ。

3つのステップ？気になる！教えて！

まずレベル1は『顔の知覚』。画像として変なところがないかチェックする基礎訓練。レベル2は『時間的なグラウンディング』。動画の「何秒から何秒の間」で「どのパーツ」が変なのかを特定させる訓練だね。

「ここが変だよ！」って指差す練習みたいな感じだね。じゃあ、レベル3は？

レベル3は『法医学的推論』。集めた証拠をまとめて、「だからこの動画は偽物です」って最終的な判断を下す、一番高度なステップだよ。これらを全部、選択肢形式の問題にしてAIに解かせるんだ。

へぇー！でも、そんなにたくさんの問題を人間が作るのは大変じゃない？

そこがこの研究の賢いところで、人間が動画に付けた簡単な印を元に、別のAIを使って自動で問題と選択肢を生成するパイプラインを作ったんだ。3万問以上も用意したらしいよ。

3万問！スパルタ教育だね……。それで、その特訓を受けたAIはちゃんと賢くなったの？

実験結果によると、このデータセットで学習したモデルは、見たことがない新しい偽造動画に対しても、どこがどう変なのかを正確に答えられるようになったんだ。ただ「偽物」って当てるだけじゃなくて、理由まで説明できるのがすごいところだね。

理由がわかるなら、人間も納得できるね！これがあれば、ネットの怪しい動画も全部見破れちゃう？

将来的にはそうなるかもしれない。でも、課題もあるんだ。ディープフェイクを作る側の技術もどんどん進化してるから、いたちごっこなんだよね。もっと複雑な背景とか、複数人が映ってる動画への対応もこれからの研究課題かな。

なるほどねー。でも、これで私の自撮り動画が勝手に加工されても、智也くんのAIが助けてくれるなら安心だわ！

あ、でも待って。私の顔が可愛すぎてAIが「これは現実離れしてるから偽物だ！」って判定しちゃったらどうしよう？

……それはただの自意識過剰っていう『バグ』だから、AIじゃなくて鏡を見て自分で修正してね。

投稿日:AI