ビデオと言語の未来を変える!新しいAIモデルの話

投稿者: ユウ

解説 ねえ、トモヤくん!この「VideoLLM-MoD」っていう論文、面白そうだね!内容教えてくれない? もちろん。これは、ビジョンと言語の大規模モデルに関する論文なんだ。トークン数を増やすと視覚理解が良くなるけど、計算…