ねえ智也くん、この論文のタイト…
解説
ねえトモヤ!複数のAIモデルを合体させて、もっと賢くする新しい方法「OrthoMerge」っていうのが発表されたよ!
モデルのマージか。今までは単純に重みを足し算したり平均したりするのが主流だったよね?
そうなの。でも、単純な足し算だとAIの内部にある大事な「幾何学的な構造」が壊れちゃうんだって。そこでこの研究は、更新を「回転」として捉えることにしたの!
回転?数学の「直交群」とか「リー代数」を使うってことかな。確かにそれなら、ベクトルの性質を保ったまま混ぜられそうだ。
正解!さらに、複数の知識を混ぜた時に力が弱まらないように「大きさ補正」っていうテクニックも使っているんだよ。これで、いろんなスキルを器用にこなせるAIが作れるようになるんだって!
なるほど。足し算じゃなくて回転で混ぜるっていう発想の転換が、AIの進化を加速させるかもしれないね。面白いな!
要点
- 従来のモデルマージは単純な線形加算に頼っており、重みの幾何学的構造(ハイパースフェリカルエネルギーなど)を破壊してしまうという課題がある。
- 提案手法「OrthoMerge」は、重みの更新を「回転(直交変換)」として扱い、直交群のリー代数上でマージを行うことで幾何学的構造を維持する。
- 異なるタスクの更新が打ち消し合って学習効果が弱まる「大きさの崩壊」を防ぐため、マージ後のベクトルの長さを調整する「大きさ補正(Magnitude Correction)」を導入した。
- LoRAなどの非直交な更新に対しても、QR分解を用いて直交成分を抽出することで適用可能であり、マルチタスク学習において従来手法を上回る性能を示した。