マルチモーダルAI - 亜美と智也のAI論文解説 - Page 22

7月 13 2024

0

視覚的な数学問題解決能力を向上させるMAVISの秘密

投稿者: ユウ

解説智也くん、この『MAVIS: Mathematical Visu…

7月 04 2024

0

医療分野に革命を起こすMMedAgentとは？

投稿者: ユウ

解説智也くん、この「MMedAgent」っていう論文のタイトルを見た…

7月 01 2024

0

ウェブページからHTMLコードへ：Web2Codeの革新

投稿者: ユウ

解説智也くん、この「Web2Code」っていう論文のタイトルが気にな…

6月 28 2024

0

OMG-LLaVA: 画像理解と推論の新しいフレームワーク

投稿者: ユウ

解説智也くん、この『OMG-LLaVA』っていう論文のタイトルが気に…

6月 23 2024

0

Prism: 視覚と言語の能力を分離して評価する新しいフレームワーク

投稿者: ユウ

解説智也くん、この『Prism: A Framework for D…

6月 19 2024

0

マルチモーダルエージェントへの敵対的攻撃の新たなリスクとその防御策

投稿者: ユウ

解説智也くん、この「Adversarial Attacks on M…

6月 17 2024

0

画像と動画のいいとこ取り！VideoGPT+のすごさを解説

投稿者: ユウ

解説智也くん、この「VideoGPT+」っていう論文のタイトルが気に…

6月 05 2024

0

自動運転の難しいケースをVLMsで解決！

投稿者: ユウ

解説智也くん、この論文のタイトル「Hard Cases Detect…

6月 05 2024

0

StrucTexTv3: テキストが豊富な画像を理解する新しいAIモデル

投稿者: ユウ

解説智也くん、この『StrucTexTv3』っていう論文のタイトルが…

6月 04 2024

0

ビデオ分析の新時代：Video-MMEの革新と未来

投稿者: ユウ

解説智也くん、この「Video-MME」っていう論文のタイトルが気に…