ねえ智也くん、この論文のタイト…
解説
ねえねえ智也くん!この「ELLA」っていう論文のタイトル、女の子の名前みたいで可愛いね!何かのアイドルの話?
いや、全然違う。これはLLMが新しいことを次々に学んでも、昔覚えたことを忘れないようにするための「継続学習」っていう技術の研究だよ。
えっ、AIって物忘れするの?あんなに頭いいのに?
そうなんだ。新しいデータで追加学習(ファインチューニング)をすると、前の知識を上書きしちゃうんだよね。これを「破滅的忘却」って呼ぶんだ。
破滅的……!名前が怖すぎるよ!私のテスト前の暗記みたいだね。新しい英単語を覚えると、昨日覚えた歴史の年号が消えちゃう感じ?
例えは合ってるけど、AIの場合はそれがもっと深刻なんだ。これまでの対策だと、過去のデータを全部保存しておいて学び直すとか、過去に使った回路をガチガチに固めて一切触らせないとか、極端な方法が多かったんだよ。
それだとデータが多すぎてパンクしちゃうし、回路を固めたら新しいことが覚えにくくなりそうだね。
その通り。そこでこのELLAが提案したのが「選択的なサブスペース相関抑制」っていう方法なんだ。簡単に言うと、過去の学習で「ここが一番大事!」ってなった重要な方向だけを避けて、あまり使われていない隙間を賢く再利用するんだよ。
へぇー!「大事なところは触らないけど、空いてるスペースは自由に使っていいよ」ってこと?
そう。専門的には「異方性収縮(アニソトロピック・シュリンケージ)」っていう数学的な仕組みを使っている。過去のタスクでエネルギーが高かった方向への更新には強いペナルティをかけて、そうじゃない方向は自由に動かせるように調整するんだ。これを「正則化」っていう手法で実現しているよ。
難しい言葉が出てきたけど、要するに「空気を読んで更新する」ってことかな?
まあ、そんな感じだね。しかも、このELLAのすごいところは、タスクが10個になっても100個になっても、計算の手間や必要なメモリが全然増えないんだ。過去の更新を一つの行列にまとめて管理するからね。
えっ、それってすごいの?
めちゃくちゃすごいよ。実験では、他の最新手法と比べてメモリの使用量が35分の1になったのに、精度は最大で9.6%も上がったんだ。しかも、まだ習っていない未知のタスクに対しても、応用力が上がるっていう結果が出ている。
35分の1!?お部屋の掃除をして、タンスの隙間に全部荷物が収まっちゃったみたいな衝撃だね!
……例えは微妙だけど、効率の良さは伝わったみたいだね。この技術があれば、プライバシーの関係で過去のデータを保存できない場合でも、AIをずっと賢くし続けることができるんだ。
じゃあ、将来はスマホの中のAIが、私との会話をずっと忘れずに、どんどん私好みに成長してくれるってこと?
理論上はそうだね。ただ、まだ課題もある。今回は特定の形式の学習(LoRA)がベースだし、もっと複雑な知識が絡み合った時にどうなるかは、これからの研究次第かな。
なるほどねー。私もELLAを脳にインストールして、智也くんに借りたお金のことも忘れないようにしなきゃ!
それは「破滅的忘却」じゃなくて、ただの「踏み倒し」だろ。早く返せよ。
要点
- LLMが新しいタスクを順番に学習する際、過去の知識を忘れてしまう「破滅的忘却」を防ぐ新手法「ELLA」を提案。
- 従来の「過去の知識と一切重ならないようにする」という厳しい制約ではなく、過去の重要な方向性だけを避けて、重要度の低い部分は再利用する「選択的なサブスペース相関抑制」を採用。
- 計算量やメモリ使用量がタスクの数が増えても一定であり、非常に効率的(メモリ使用量は従来比で35分の1)。
- 既存のLoRAなどの手法と組み合わせて使用でき、精度が最大9.6%向上。さらに、未知のタスクに対する汎化性能も高まることが確認された。