解説

AMI HAPPY

ねえねえ智也くん!この『Horizon-LM』っていう論文のタイトル、なんか地平線まで続く道みたいでかっこよくない?これって何の話なの?

TOMOYA NEUTRAL

ああ、それは巨大なモデルをたった1枚のGPUで学習させるための新しい仕組みについての論文だよ。最近のモデルは大きすぎて、普通のやり方だとGPUのメモリが全然足りないんだ。

AMI SURPRISED

えっ、1枚だけでいいの?いつも智也くん、何枚もGPUを並べて『電気が足りない』とか言ってるのに!

TOMOYA NEUTRAL

……それは僕の個人的な悩みだけど、正論だね。今の主流は、たくさんのGPUにモデルを分割して載せる方法なんだ。でも、この論文は『GPUは計算する時だけ使って、データは全部パソコン本体のメモリ(RAM)に置いておけばいいじゃん』っていう逆転の発想をしてるんだよ。

AMI HAPPY

えーっと、つまりGPUは『作業机』で、RAMは『巨大な倉庫』ってこと?

TOMOYA NEUTRAL

例えとしては悪くないね。これまでの方法は、作業机の上に無理やり全部の荷物を置こうとしてパンクしてた。Horizon-LMは、倉庫から必要な分だけ机に持ってきて、使い終わったらすぐ倉庫に戻すっていう『RAM中心』の考え方なんだ。

AMI NEUTRAL

でも、倉庫から机に運ぶのって時間がかかりそうじゃない?作業が止まっちゃいそう!

TOMOYA NEUTRAL

そこがこの論文の賢いところでね。『二重バッファリング』っていう技術を使ってるんだ。今使ってるデータの裏で、次に使うデータをこっそり運んでおく。そうすれば、計算が終わった瞬間に次のデータが準備できているから、GPUを休ませずに済むんだよ。

AMI HAPPY

なるほど!お料理しながら、次に使う野菜を隣で誰かが切ってくれてるみたいな感じだね!

TOMOYA NEUTRAL

……まあ、そんな感じかな。あと、メモリを節約するために『再計算』っていうテクニックも使ってる。計算の途中の結果を全部保存するんじゃなくて、必要な時にもう一度計算し直すことで、メモリの使用量を極限まで抑えてるんだ。

AMI SURPRISED

すごーい!それで、実際にどれくらい大きなモデルが動かせたの?

TOMOYA NEUTRAL

なんと、1枚のGPUで1200億パラメータ(120B)のモデルを学習できたらしい。これ、今までの有名な手法であるDeepSpeed ZeRO-3と比べると、同じ条件で12倍以上も速いんだよ。

AMI HAPPY

12倍!?智也くんが12人分働くってこと?それはもう超人だね!

TOMOYA NEUTRAL

僕を基準にしないでくれるかな。でも、この研究の意義は大きいよ。これまでは巨大なサーバーを持っていないとできなかった最新モデルの微調整が、もっと身近な環境でできるようになるかもしれないんだから。

AMI HAPPY

じゃあ、私のノートパソコンでも最強のAIが作れちゃう?

TOMOYA NEUTRAL

いや、さすがにノートパソコンのRAMじゃ足りないし、GPUもそれなりのものが必要だけどね。でも、将来的にRAMの容量が増えていけば、GPUを買い足さなくてもモデルの規模をどんどん大きくできる可能性があるんだ。

AMI NEUTRAL

課題とかはないの?完璧すぎて怪しいよ!

TOMOYA NEUTRAL

鋭いね。やっぱりCPUとGPUを繋ぐ通信速度(PCIeとか)が遅いと、計算待ちが発生しちゃうのが弱点かな。あと、今はまだ1枚のGPUに特化してるから、これをどうやって複数のGPUで効率よく動かすかっていうのがこれからの研究課題だね。

AMI HAPPY

ふーん、じゃあ私もRAMをたくさん食べて、記憶力を1200億倍にしてみようかな!

TOMOYA NEUTRAL

亜美さんが食べるのは『ラム肉』でしょ。それはただのジンギスカンパーティーだよ。

要点

  • GPUメモリの容量不足を解消するため、CPUメモリ(RAM)を主記憶として活用する新しい学習アーキテクチャ「Horizon-LM」を提案。
  • GPUを一時的な計算エンジンとしてのみ利用し、モデルの全パラメータや最適化状態はCPU側に保持する「CPU-master, GPU-template」モデルを採用。
  • 二重バッファリングを用いたパイプライン実行により、CPUからGPUへのデータ転送と計算を重ね合わせることで、通信のボトルネックを最小化。
  • 単一のH200 GPUで1200億パラメータ(120B)規模のモデルの学習に成功し、既存のDeepSpeed ZeRO-3と比較して最大12.2倍のスループットを達成。
  • モデルの規模がGPUの数ではなく、ホスト側のRAM容量によって決まるようになるため、個人や小規模な研究室でも巨大モデルの微調整が可能になる。