Mixture-of-Experts言語モデルの訓練を再考する

4月 10 2024

解説

AMI SURPRISED

ねえ智也くん、この「Mixture-of-Experts言語モデルの訓練を再考する」って論文、何についてなの？

TOMOYA NEUTRAL

ああ、これはね、言語モデルの計算コストを削減しつつ、性能を維持する新しい方法についての研究だよ。

AMI CURIOUS

計算コストを削減するって、どういうこと？

TOMOYA NEUTRAL

大きな言語モデルは性能がいいけど、計算にすごく時間がかかるんだ。この研究では、訓練中には全ての部分を使って計算するけど、推論（予測）の時には必要な部分だけを使うことで、効率を上げているんだ。

AMI INTERESTED

へぇ〜、それで、結果はどうなの？

TOMOYA PROUD

実験では、提案されたモデルが、従来の密なモデルと比べて最大1.86倍速く動作し、パラメータ効率も良好だったんだ。

AMI CURIOUS

すごいね！でも、何か難点はあるの？

TOMOYA NEUTRAL

うん、まだ完璧ではなくて、特に大規模なモデルでは、I/Oバウンドのシナリオでの効率が課題になっているんだ。

AMI HOPEFUL

なるほどね。でも、これからもっと改善されていくのかな？

TOMOYA NEUTRAL

ええ、研究者たちはこの問題に取り組んでいて、将来的にはもっと効率的なモデルが開発されると思うよ。

AMI HAPPY

智也くん、もし私がAIだったら、計算コストはどれくらいかな？

TOMOYA AMUSED

亜美はもう十分賢いから、計算コストは心配ないよ。むしろ、君の明るさでエネルギーを生み出せるかもね。

Mixture-of-Experts（MoE）言語モデルは、計算コストを2〜4倍削減しながら、密なモデルと同等の性能を維持できる。

しかし、MoEモデルは同等の性能を達成するために、2〜4倍のパラメータを必要とし、GPUメモリの要求が大きくなり、I/Oバウンドのシナリオでの効率が低下する。

本研究では、訓練中にすべてのエキスパートで密な計算を行い、推論中には疎な計算を行う、DS-MoE（Dense Training, Sparse Inference）モデルを提案する。

DS-MoEモデルは、標準の疎MoEよりもパラメータ効率が高く、密なモデルと同等のパラメータサイズと性能を持ちながら、計算コストが低い。

性能テストでは、DS-MoE-6Bモデルが同様の密なモデルよりも最大1.86倍速く、比較可能なMoEモデルよりも1.50〜1.71倍速いことが示された。

投稿日:AI