要点大規模言語モデル(LLM)…
解説
ねえ智也くん!この『UniGeM』っていう論文のタイトル、なんかキラキラしてて宝石の名前みたいじゃない?
宝石じゃなくて、AIに学習させるデータを賢く選ぶための新しい手法の名前だよ。UniGeMは『幾何学的な探索と採掘』の略なんだ。
幾何学?三角形とか四角形とか?AIが算数の勉強でもするの?
そうじゃないよ。AIが学習する膨大なデータには、実は目に見えない『形』があるんだ。それを『多様体(マニフォールド)』って呼ぶんだけど、この論文はその形を崩さずに、一番おいしい部分だけを抜き出そうっていう研究なんだよ。
データの形……?全然イメージ湧かないけど、とにかく凄そうなのはわかった!でも、今までもデータって選別してたんじゃないの?
いい質問だね。今までは「どのジャンルのデータを何%入れるか」っていう全体の話と、「この文章は質が高いか」っていう個別の話がバラバラだったんだ。それだと、特にプログラミングのコードみたいに、前後のつながりが大事なデータの構造が壊れちゃうことがあったんだよ。
なるほど!パズルのピースをバラバラに集めても、元の絵が完成しないみたいな感じかな?
まさにその通り。UniGeMは、そのパズルの全体図を見ながら、大事なピースを正確に選ぶために2つのステップを踏むんだ。まずステップ1の『マクロ探索』では、データの全体的な分布を調べて、どのグループが重要かを決める。
ふむふむ、まずは全体を見るんだね。じゃあステップ2は?
ステップ2は『ミクロマイニング』。グループの中で、さらに細かくデータを見ていくんだ。ここでは「構造的ペナルティ」っていう仕組みを使って、そのグループのルールから外れている変なデータを除去するんだよ。
変なデータはポイしちゃうんだ!でも、どうやって「変」かどうか判断するの?
データの「密度」や「一貫性」を幾何学的に計算するんだ。他のデータと仲良く並んでいるか、一人だけ変な場所に浮いていないかを見る感じかな。外部のAIモデルに頼らずに、データ自身の配置だけで判断できるのがこの手法の賢いところなんだよ。
へぇー、自分たちだけで解決しちゃうんだ!それで、結果はどうだったの?
驚くべきことに、適当にデータを選んだ場合と比べて、半分のデータ量で同じ性能が出せたんだ。つまり「データ効率が2倍」になったってこと。特にプログラミングや難しい推論の問題で、他の最新手法よりも高いスコアを出したんだよ。
2倍!?それって、勉強時間を半分にしてもテストで満点取れるみたいなこと?最高じゃん!
まあ、AIにとってはね。これからは高品質なデータがどんどん足りなくなると言われているから、こういう「少ないデータで賢く育てる技術」はすごく重要になるはずだよ。
将来は、もっと少ないデータで、もっと物知りなAIができるようになるのかな?
そうだね。ただ、課題もある。今回はコードとテキストの混合データで試したけど、画像や音声みたいな他の種類のデータでも同じように「形」がうまく捉えられるかは、まだ研究が必要なんだ。
そっかー。でも、UniGeMがあれば、私のスマホのパンパンな写真フォルダからも、最高の1枚を幾何学的に選んでくれるかも!
君の写真は幾何学以前に、まずピンボケを直すところから始めたほうがいいと思うけどね。
要点
- LLMの学習において、データの「量」よりも「質」が重要視されるようになっているが、高品質なデータは枯渇しつつある。
- 従来のデータ選別は、ドメインごとの割合を決める「マクロ」な調整と、個々のデータを選ぶ「ミクロ」な選別がバラバラに行われていた。
- UniGeMは、データを幾何学的な「多様体(マニフォールド)」として捉え、マクロとミクロの選別を一つのフレームワークで統合した。
- 「マクロ探索」でデータの全体像を把握して適切な配分を決め、「ミクロマイニング」で構造を壊さないように高品質なサンプルを抽出する。
- 実験では、ランダムな選別と比べて2倍の学習効率を達成し、特にプログラミングや論理的推論の能力が大幅に向上した。