たった2語で画像を見抜く！？AIの「翻訳術」SAMTokがすごすぎる！

1月 23 2026

解説

ねえねえ智也くん！この『2つの単語でどんなマスクも表現する』っていう論文、タイトルがすごく気になるんだけど！これって忍術か何かの話？

……忍術なわけないだろ。これは『SAMTok』っていう、AIが画像の中の特定の範囲をどうやって効率よく理解するか、っていう研究だよ。

マスクって、あの風邪の時に付けるやつじゃなくて、画像の一部を塗りつぶしたみたいなやつのことだよね？でも、たった2つの単語で足りるの？もっと複雑な形とかいっぱいあるじゃん！

そこがこの論文の肝なんだ。今までのAIは、画像の細かい形を扱うために、すごく複雑な専用の部品を付け足したり、何百個もの数字を並べたりしてたんだ。でもSAMTokは、それをたった2つの『特別な単語』に凝縮しちゃうんだよ。

へぇー！じゃあ、AIは普通の文章を読むみたいに、画像の中の形も「単語」として読めちゃうってこと？

その通り。これを『トークナイザ』って言うんだけど、画像を言葉に変換する翻訳機みたいなものだね。中身は『SAM2』っていう最新の画像分割モデルをベースにしていて、『ベクトル量子化』っていう技術で情報をギュッと絞り込んでいるんだ。

ベクトル……りょうし……？えっと、また智也くんが難しい言葉を使い始めた！

ごめん。簡単に言うと、無限にある複雑な形を、あらかじめ用意した『形の辞書』の中から一番近い単語2つに当てはめる作業のことだよ。これのおかげで、AIの構造を改造しなくても、普通の学習方法で「ここが猫の耳だよ」って指し示せるようになるんだ。

なるほど！辞書から選ぶだけなら簡単そうだね。それで、実際にやってみて性能はどうだったの？

QwenVLっていう既存のモデルで試したんだけど、画像の中の特定の場所を説明したり、言葉で指示された場所を塗りつぶしたりするテストで、軒並み世界トップクラスの成績を出したんだ。特に『強化学習』との相性がいいのが強みだね。

強化学習って、AIが頑張ったらご褒美をあげるやつだよね？お菓子でもあげるの？

……お菓子じゃない。今までは「形」が正解かどうか判定するのが難しかったんだけど、SAMTokは「単語」だから、正解の単語と一致してるかチェックするだけでいいんだ。このシンプルな仕組みで、精度が劇的に上がったんだよ。

すごーい！じゃあ、これがあれば将来はどうなるのかな？

もっと複雑な指示、例えば「この写真の中で、壊れそうな部分だけ赤く塗って」みたいな高度なやり取りが、スマホとかでもスムーズにできるようになるはずだ。ただ、まだすごく細かい部分の再現には限界があるから、そこが今後の研究課題だね。

よーし、私もSAMTokを使って、智也くんの部屋の散らかってる部分を全部「見えないマスク」で消しちゃおっと！

それはただの現実逃避だろ。いいから片付けを手伝え。

投稿日:AI