4月 25 2024 0 XC-CACHE: 効率的なLLM推論のためのクロスアテンションとキャッシュコンテキスト 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「XC-CACHE: Cross-Attending to Cached Context for Efficient LLM Inference」って何か面白そう!何についてなの? …