視覚に基づく言語モデルの画像分類の謎を解く

投稿者: ユウ

解説 智也くん、この論文のタイトルが気になるんだけど、『視覚に基づく言語モデルはなぜ画像分類が苦手なのか?』ってどういうこと? ああ、亜美さん。これは視覚に基づく言語モデル、つまり画像とテキストの両方を理解するAIが、画…