AIに「過去問」を見せるだけで天才に！？万能型AIが専門家を超える日

3月 01 2026

解説

ねえねえ、智也くん！これ、『Large Multimodal Models as General In-Context Classifiers』って論文、すごく面白そうなタイトル！何について書いてあるの？

ああ、この論文か。簡単に言うと、ChatGPTみたいに画像も理解できるAI（LMM）が、実は画像を分類するタスクでも、ちょっとしたコツでめちゃくちゃ強くなるって話だよ。

画像分類？それって、写真が犬か猫か当てるみたいなやつ？それなら、CLIPってやつがすごいって聞いたことあるよ。新しいAIはそれより弱いんじゃないの？

そう、そこが面白いところなんだ。今までは確かに、ゼロから始める「ゼロショット」ではCLIPの方が圧倒的に強かった。でも、この論文は「文脈内学習」って方法を使うと話が変わると言ってる。

ぶん…なに？文脈内学習？難しそうな言葉だなぁ。

難しく考えないで。要は、AIに問題を解かせる時に、答えの例をいくつか先に見せてあげるんだ。例えば、「これはリンゴの写真、これはバナナの写真」って感じで。そうすると、AIは「ああ、こうやって答えるんだな」と学習して、次の問題を正しく解きやすくなる。

あー！それって、テスト前に先生が過去問を解かせてくれるみたいな感じ？

その例え、すごく分かりやすいな。まさにそれ。で、この論文では、LMMにそんな例を4個とか8個とか16個与えてみたんだ。そしたら、性能がガンガン上がって、ついにはCLIPに追いついたり、追い越したりしたって結果が出た。

え、すごい！でも、それってクラスが決まってる「閉じた世界」の話でしょ？世の中には名前も知らない変な物がいっぱいあるよ？

鋭い指摘だね。その「開いた世界」が次の課題なんだ。クラスが決まってないから、正解ラベルのついた例を用意するのが難しい。で、適当なラベルをつけた不完全な例を与えると、LMMは混乱しちゃうんだ。

そっか…。じゃあ、やっぱりCLIPの方が強いままなの？

そこで、この論文のもう一つの大きな貢献、「CIRCLE」っていう手法が出てくる。これは、AI自身にラベルなし画像の仮のラベル（擬似ラベル）をつけさせて、それを何度も繰り返し洗練させていく方法なんだ。まるで、自分で自分の答えを採点して直していくみたいな感じ。

自分で自分を鍛えるの？すごい、修行みたい！

そうだね。このCIRCLEを使うと、開いた世界の分類でも、LMMはCLIPを超える性能を出せるようになった。実験結果を見ると、結構な差をつけて勝ってるんだ。

なるほど…。じゃあこの研究がすごいところって、一つは「例を見せるだけでAIがめっちゃ賢くなる」って発見で、もう一つは「自分でラベルを直していく方法を考えた」ってこと？

その通り。そして、もっと大きな意義は、LMMが「万能型の分類器」として使える可能性を示したことだと思う。今までは、分類にはCLIP、会話には別のAI、みたいに使い分けが必要だったけど、一つのLMMで両方こなせるかもしれない。すごく柔軟だよね。

未来のAIは、一個で何でもできちゃうスーパーAIになるってこと？ワクワクする！

そうなる可能性はあるね。でも、まだ課題はある。例えば、たくさんの例を見せるにはメモリがたくさん必要だし、例の選び方によって性能が変わったりする。これからは、どうやって効率的に良い例を選ぶか、っていう研究が進むと思う。

ふーん、道はまだまだ続いてるんだね。でも、この論文を読むと、AIってまだまだ伸びしろがあるって感じがして、なんだか勇気づけられるな。

ああ、基礎研究の面白さはそこにあるんだよ。一見地味に見える発見が、未来の大きな変化の種になるかもしれない。

はーい！じゃあ、私も勉強して、将来は智也くんみたいにカッコいい研究者になるぞ！…まずは、この前のレポートの締切を思い出さないと！

…はあ。そっちの方が緊急だろ。早くやれよ。

従来、画像分類ではCLIPのような対比学習型の視覚言語モデル(VLM)が優れているとされ、大規模マルチモーダルモデル(LMM)は複雑なタスク向けと考えられていた。
本論文は、LMMが持つ「文脈内学習(In-Context Learning)」の能力に注目し、数個の例文（コンテキスト）を与えることで分類性能が劇的に向上することを示した。
閉じた世界（事前にクラスが決まっている分類）では、十分なコンテキストを与えればLMMはVLMと同等かそれ以上の性能を発揮できる。
開いた世界（クラスが事前に決まっていない分類）では、不完全なコンテキスト情報にLMMは苦戦する。
この問題を解決するため、ラベルなし画像の擬似ラベルを反復的に洗練させる「CIRCLE」という手法を提案。これにより、開いた世界の分類でもLMMがVLMを上回る性能を達成した。
LMMは単一のモデルで様々な分類タスクに対応できる「統一された分類器」としての可能性を示し、専門的なモデルに代わる柔軟な選択肢になり得る。

投稿日:AI