AIに「ちょっと見て」とお願いするだけで、画像認識の達人に！？〜文脈の力で目覚めるマルチモーダルAIの可能性〜

3月 01 2026

解説

ねえねえ、智也くん！これ、『Large Multimodal Models as General In-Context Classifiers』って論文、すごく面白そうなタイトル！何について書いてあるの？

ああ、この論文か。簡単に言うと、画像に何が写ってるかを当てる「画像分類」ってタスクで、最近の大きなマルチモーダルAIモデルが、実はすごい潜在能力を持ってるってことを証明したんだ。

マルチモーダルAIって、画像も言葉も理解できるAIだよね？でも、分類って、CLIPっていう別のAIの方が得意なんじゃなかったっけ？前に何かで聞いた気がする。

そう、それが今までの常識だった。CLIPみたいな「対比学習型VLM」はゼロショット、つまり何も教えなくても分類が上手い。一方で、会話ができるLMMは複雑なタスクは得意だけど、単純な分類は苦手だと思われてた。

じゃあ、この論文はその常識を覆したってこと？どうやって？

鍵は「文脈内学習」、ICLだ。LMMに、分類したい画像と一緒に、正解が分かっている画像を数枚、例として見せてあげるんだ。『この画像は犬、この画像は猫』って感じで。すると、LMMはその文脈から学んで、急に分類が上手くなるんだ。

へえ！つまり、ちょっとヒントをあげるだけで、眠ってた能力が目覚めるって感じ？

その通り。論文では、クラスが決まっている「閉じた世界」の分類で実験して、例を16個くらい与えると、LMMはCLIPに追いつき、場合によっては追い抜くことができた。

すごい！じゃあ、クラスが決まってない、もっと自由な「開いた世界」の分類はどうなの？『この画像に写ってるものは？』って聞くようなやつ。

そこが難しいところで、開いた世界では正解ラベル付きの例を集めるのが大変だよね。で、適当に集めた例（文脈）を使うと、ラベルが間違ってたり、抽象度がバラバラだと、LMMは混乱して性能が落ちちゃうんだ。

あー、確かに。間違ったヒントをもらうと迷っちゃうよね。それでどうしたの？

そこで著者たちが考えたのが「CIRCLE」っていう手法だ。ラベルなしの画像の集まりだけを用意して、LMM自身に疑似ラベルを付けさせて、それを文脈として使い、また新しいラベルを予測させる。それを何度も繰り返して、ラベルを少しずつ洗練させていくんだ。

わあ、自分で自分の答えを直していくの？まるで復習みたい！

そう。このCIRCLEを使うと、開いた世界の分類でもLMMの性能が大きく向上して、結局はCLIPベースの手法よりも良くなったんだ。訓練なしで、これだけ効果があるのは驚きだよ。

この研究って、すごく意味あるよね！これまでは分類用に特別なAIを用意しなきゃいけなかったけど、会話もできる便利なLMM1台で、ちょっと例を見せるだけで分類もこなせちゃう可能性が出てきたんだもん。

うん。汎用AIが専門モデルに近づく一歩だと思う。ただ、課題もある。文脈として与える例の選び方や、計算コストがまだ高いこと。あと、CIRCLEがなぜうまくいくのか、理論的な裏付けはこれからだね。

でも、未来は明るいね！もしかしたら将来、AIに『これとこれを見て、これが何か当てて』ってお願いするだけで、何でも分類してくれる時代が来るかも！

…その説明、めちゃくちゃ雑だけど、まあ雰囲気は伝わるかな。要するに、使い方次第でLMMの可能性はもっと広がるってことだ。

はーい！じゃあ、まずは智也くんに、私が撮った変な雲の写真を何枚か見せて、『これ何に見える？』って聞いてみようっと！

…お前、論文の内容を遊びに使う気かよ。まあ、良い実践の場かもな。

従来、画像分類ではCLIPのような対比学習型のVision-Language Model (VLM)が優れているとされ、Large Multimodal Model (LMM)は複雑なタスク向けと考えられていた。
本論文は、LMMが持つ「文脈内学習（In-Context Learning, ICL）」の能力に注目し、数個の例（文脈）を与えることで分類性能が劇的に向上することを示した。
閉じた世界（クラスが事前に決まっている）の分類では、十分な文脈を与えればLMMはVLMと同等かそれ以上の性能を発揮できる。
開いた世界（クラスが事前に決まっていない）の分類では、文脈のラベルが不完全だとLMMは苦戦する。
この問題を解決するため、ラベルなし画像を文脈として使い、疑似ラベルを反復的に洗練させる「CIRCLE」という手法を提案した。
CIRCLEにより、LMMは開いた世界の分類でもVLMを上回る性能を達成し、専門的な分類モデルに代わる柔軟な選択肢となる可能性を示した。

投稿日:AI