マルチモーダル - 亜美と智也のAI論文解説

6月 04 2024

0

ビデオ分析の新時代：Video-MMEの革新と未来

投稿者: ユウ

解説智也くん、この「Video-MME」っていう論文のタイトルが気になるんだけど、教えてくれる？もちろんだよ、亜美さん。この論文は、マルチモーダル大規模言語モデル（MLLMs）のビデオ分析能力を評価するための初の包括…

5月 18 2024

0

投稿者: ユウ

解説智也くん、この「UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models」っていう論文、面白そう！教えてくれない？…

5月 16 2024

0

投稿者: ユウ

解説智也くん、この「CinePile」っていう論文のタイトルが気になるんだけど、教えてくれる？もちろんだよ、亜美さん。CinePileは長編ビデオの理解を目的とした新しいデータセットとベンチマークを提供する論文なんだ…

4月 28 2024

0

投稿者: ユウ

解説ねえ智也くん、この論文のタイトル見て興味が湧いたんだけど、「Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering」って…

4月 25 2024

0

投稿者: ユウ

解説ねえ智也くん、この「DesignProbe: マルチモーダル大規模言語モデルのためのグラフィックデザインベンチマーク」って論文、何について書かれてるの？ああ、これはね、グラフィックデザインを理解するための新しいベ…

4月 19 2024

0

投稿者: ユウ

解説ねえ智也くん、この「V2Xum-LLM: クロスモーダルビデオ要約における時間的プロンプト指示チューニング」って論文、何についてなの？これは、ビデオの長い内容を短く要約する技術についての研究だよ。特に、ビデオとテ…