マルチモーダルAI - 亜美と智也のAI論文解説

7月 16 2026

0

VLMのCoT推論は画像を最後まで見直していない：Visual Access Boundaryの発見

投稿者: ユウ

TL;DR Vision-Language Model (VLM) の…

7月 15 2026

0

スポーツ映像理解の新ベンチマーク：複数カメラを活用するエージェントフレームワーク

投稿者: ユウ

TL;DR 既存のMLLMは単一視点の動画理解に優れるが、スポーツでは…

7月 13 2026

0

エッジVLM推論の真のエネルギー消費は「見ること」より「話すこと」が支配的

投稿者: ユウ

TL;DR エッジデバイス上のVLM（視覚言語モデル）のエネルギー消費…

7月 13 2026

0

敵対的攻撃に強いVLMを実現：テスト時プロンプト適応フレームワークRITA

投稿者: ユウ

TL;DR RITAは、CLIPなどのVision-Language …

7月 13 2026

0

VLMの内部表現に正しい数はあるのに出力がズレる——活性化プローブで検出・修正する手法

投稿者: ユウ

TL;DR VLMは物体カウントタスクで誤答しがちだが、中間層の活性化…

7月 12 2026

0

小規模VLM量子化の実践ガイド：コンポーネント別分析とエッジ展開の知見

投稿者: ユウ

TL;DR 3Bパラメータ以下のVLMをJetson Orinエッジデ…

7月 12 2026

0

思考連鎖エントロピーでVLMの幻覚を検出する実践手法

投稿者: ユウ

TL;DR 思考モードVLMでは回答トークンのエントロピーが幻覚検出に…

7月 11 2026

0

非GPU AIアクセラレータの実運用限界：Huawei Ascend 910でMoE・マルチモーダル推論を動かす現場報告

投稿者: ユウ

TL;DR Huawei Ascend 910 16台構成でDeepS…

7月 10 2026

0

幻覚が推論を変える？VLMの「幻覚後推論」を評価するHIVE

投稿者: ユウ

TL;DR Vision-Language Model (VLM) が…

3月 06 2026

0

VLMの幻覚を生成前に検知する手法HALP：内部表現の軽量プローブで効率化

投稿者: ユウ

TL;DR Vision-Language Model (VLM) が…