AIの応答を劇的に速くする新技術「LK Losses」― 従来の常識を覆し、速度の鍵「受理率」を直接最大化

3月 02 2026

解説

ねえねえ、智也くん！これ、『LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding』って論文、なんかすごそうなタイトルだけど、何がすごいの？

ああ、亜美さん。これは推測デコーディングっていう、AIの応答を速くする技術の研究だよ。簡単に言うと、小さなAIが先に答えの候補をいくつか考えて、大きなAIがそれをまとめてチェックする方法なんだ。

ふーん、それで速くなるんだ！でも、小さなAIが考えた候補が全部外れてたら、結局大きなAIが一から考え直すんでしょ？それって無駄じゃない？

鋭いね。その通り。だから、小さなAI（ドラフトモデル）が大きなAI（ターゲットモデル）に「受理」される確率、つまり受理率を高めることが、速度向上の鍵なんだ。

なるほど！じゃあ、その小さなAIを賢く訓練すればいいんだね。でも、今まではどうやって訓練してたの？

今までは、大きなAIの出力分布と小さなAIの出力分布がどれだけ似ているか、KLダイバージェンスっていう指標を小さくするように訓練してたんだ。分布が完全に一致すれば受理率も100%になるから、理屈上は正しいんだけど…

「だけど」？

小さなAIはパラメータ数が少ないから、大きなAIの複雑な分布を完全に真似ることはできないんだ。そうすると、分布の形を似せようとしても、肝心の受理率が最大にならない場合がある。この論文は、そのズレを問題にしている。

あー、遠回りしてる感じ？じゃあ、この論文の方法はどうすんの？

受理率を直接高めるように訓練するんだ。具体的には2つの方法を提案していて、1つは受理率そのものの対数尤度を最大化する「Lα LK」、もう1つはKLとTV距離っていう別の指標を、訓練の進み具合に応じて混ぜる「Lλ LK」だ。

TV距離？テレビ？

違うよ、Total Variation（全変動）距離の略だ。これが受理率と数学的に直接関係していることが知られてるんだ。だけど、これだけだと訓練がうまくいかないから、最初はKLで大まかな方向を教えて、だんだんTVに切り替えていくハイブリッド方式が効果的らしい。

へえ！で、実際に速くなったの？

うん。いろんな大きさのAIモデルと、いろんな種類のドラフトモデルで実験した結果、従来の方法より平均で8%から10%も、一度に受理されるトークンの数が増えた。これは推論速度の向上に直結する大きな数字だよ。

すごい！これって、私たちが使ってるチャットボットももっと速くできるってこと？

そうだね。特に大きなモデルを使うサービスでは、応答待ち時間が短くなるから、ユーザー体験が良くなるだろう。コード生成や数学の問題を解くAIでも効果が確認されているから、応用範囲は広いと思う。

じゃあ、これで全部解決ってわけ？

いや、まだ課題はある。例えば、提案された損失関数が常に安定して訓練できるか、もっと複雑な条件下でも有効か、っていうのはこれから調べる必要がある。あと、受理率だけを追い求めすぎると、ドラフトモデルの出力の質が下がる可能性もゼロじゃない。

なるほど…バランスが難しいんだね。でも、直接ゴールを目指すって発想はすごく面白いな！

そうだね。AIの高速化は実用化には必須の技術だから、こういう根本的なアプローチの見直しは重要だと思う。

よし！私も今度、レポートを書くときは、遠回りせずに「受理率」、つまり良い点を直接最大化するように先生にアピールしてみよう！

…それはまったく別の話だよ。まずはちゃんと勉強しなさい。

推測デコーディングは、軽量なドラフトモデルが候補トークンを提案し、ターゲットモデルが並列で検証することで、大規模言語モデルの推論を高速化する技術である。
従来のドラフトモデルの学習は、ターゲットモデルとの分布の違いを測るKLダイバージェンスを最小化することを目的としていた。しかし、ドラフトモデルは容量が小さいため、KLを最小化しても、推論速度に直結する「受理率」が最大化されるとは限らないという問題があった。
この論文では、受理率を直接最大化することを目的とした新しい学習損失関数「LK Losses」を提案している。具体的には、受理率の対数尤度を直接最大化する方法と、KLとTV距離を適応的に混合するハイブリッド手法の2種類を提示している。
提案手法は、様々なドラフトモデルアーキテクチャとターゲットモデル（8Bから685Bパラメータ）で評価され、従来のKLベースの学習と比較して、平均受理長で最大8-10%の向上を一貫して達成した。
LK Lossesは実装が容易で、追加の計算コストをほとんど必要とせず、既存の推測デコーディングの学習フレームワークに直接統合できる利点がある。

投稿日:AI

タグAI