要点大規模言語モデル(LLM)…
解説
ねえねえ智也くん!この『OmniGAIA』って論文、タイトルがなんだか強そうじゃない?ガイアって地球の女神様だよね?
名前のインパクトはすごいけど、中身はもっとすごいよ。これは「オムニモーダル」なAIエージェント、つまり目と耳と頭を同時にフル回転させて動くAIについての研究なんだ。
オムニモーダル?オムニバス映画みたいな感じ?
まあ、似たようなものかな。「オムニ」は「すべて」って意味。今のAIは画像と文字だけ、とか音声と文字だけ、みたいに2つの組み合わせが得意なんだけど、これは動画も音声も画像も全部まとめて理解して、さらにネット検索とかの「ツール」まで使いこなそうっていう話だよ。
へぇー!欲張りなAIなんだね。でも、それって今までもできたんじゃないの?
そこが問題なんだ。今までのAIは、動画を見せても音声を無視したり、逆に音だけ聞いて映像を見なかったりすることが多かった。この論文では、わざと「映像と音の両方を確認して、さらにネットで調べないと解けない問題」をたくさん作って、AIを試しているんだよ。
意地悪なテストだ!どうやってそんな難しい問題を作ったの?
「オムニモーダル・イベントグラフ」っていう仕組みを使っているんだ。動画の中の出来事や音声をグラフ状につなげて、そこに足りない情報をAIが自分で検索して補強する。そうやって、何段階も考えないと答えにたどり着けない「マルチホップ推論」の問題を自動で作るんだよ。
マルチホップ……うさぎさんみたいにぴょんぴょん考えるってこと?
例えは可愛いけど、意味は合ってる。Aを確認して、次にBを調べて、その結果からCを導き出す、みたいなステップのことだね。で、この論文ではそんな難しい問題を解くために『OmniAtlas』っていう新しいエージェントも作ってるんだ。
そのOmniAtlasくんは、他のAIと何が違うの?
一番の特徴は「アクティブ知覚」だね。長い動画を全部ダラダラ見るんじゃなくて、必要な部分だけを「ここを見よう」「ここを聞こう」って自分で選んで集中するんだ。効率的だろ?
なるほど!テスト中に寝てて、大事なところだけ起きる私みたいだね!
……亜美さんと違って、ちゃんと考えて選んでるけどね。あと『OmniDPO』っていう学習方法も使ってる。これは、AIが推論の途中で間違えたときに、どこで間違えたかをピンポイントで教えて修正させるやり方なんだ。
ピンポイントで怒られるのはちょっと怖いなぁ。で、その結果はどうだったの?
既存のオープンソースモデルよりはかなり賢くなったよ。でも、最強の商用AIであるGemini-3-Proとかに比べると、まだ半分以下のスコアなんだ。人間なら簡単にわかることでも、AIにはまだ高い壁があるってことがわかったんだよ。
へぇー、AIの世界も奥が深いんだね。これからどうなっていくのかな?
今後は、もっと長い動画を理解したり、もっと複雑なツールを使いこなしたりする研究が進むはずだよ。家の中の状況を映像と音で判断して、勝手に家事をしてくれるロボットの脳みそになるかもしれない。
すごい!じゃあ、私が「お腹空いたー」って言ったら、冷蔵庫の中身を見て、足りないものをネットで注文して、勝手にオムライス作ってくれるAIができるってこと!?
理論上はそうなるね。でも、まずは亜美さんが自分で動く努力をしたほうが早いと思うけど。
えー!私は「オムニ・ぐうたら・エージェント」を目指してるんだから、それでいいの!
そんなエージェント、誰も開発しないよ。さっさとレポート書きなさい。
要点
- 画像、動画、音声、テキストを統合的に扱う「オムニモーダル」なAIエージェントの能力を評価する新しいベンチマーク『OmniGAIA』を提案した。
- 従来のAIは画像とテキストなど2つの組み合わせ(バイモーダル)が主流だったが、現実世界のように複数の情報を組み合わせて複雑な推論やツール利用を行うタスクを360個作成した。
- イベントグラフという手法を用いて、動画や音声から重要な情報を抽出し、外部ツール(検索やコード実行)を使ってさらに情報を補強する複雑な問題生成パイプラインを構築した。
- 新しいAIエージェント『OmniAtlas』を開発。必要な部分だけを重点的に「見る・聞く」アクティブ知覚と、推論の途中で間違いをピンポイントで修正する学習手法(OmniDPO)を導入した。
- 実験の結果、最新のオープンソースモデルの性能を大幅に向上させることに成功したが、依然として人間や最強の商用モデル(Gemini-3-Proなど)には及ばない課題も浮き彫りになった。