ゼロショットの基盤状況認識についての解説

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル「クラスを超えて見る:言語説明者を通じたゼロショットの基盤状況認識」って何についてなの? ああ、これは視覚言語モデルを使って、画像の中の動作や場面を認識する技術についての研究だよ。特…

ビジュアル質問応答の強化についての解説

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル「質問駆動型画像キャプションを用いたビジュアル質問応答の強化」って何か面白そう!これってどんな内容なの? ああ、これはビジュアル質問応答、つまり画像に基づいて質問に答えるタスクを改善…