5月 06 2024 0 アテンションを別のデバイスに任せて、コスト削減!? 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「効率的かつ経済的な大規模言語モデル推論のためのアテンションオフローディング」って何がすごいの? 亜美さん、この論文は、大規模言語モデルの効率とコストを改善する新しい方法を提案してい…