AIが「おバカ」になるのを防ぐ！？最新の学習手法SLIMEがすごい！

2月 04 2026

解説

ねえねえ智也くん！この「SLIME（スライム）」っていう論文、何？AIでドロドロのスライムを作る研究なの？

いや、全然違うよ。これはAIを人間の好みに合わせる「アライメント」っていう技術の新しい手法なんだ。正式名称は『Stabilized Likelihood Implicit Margin Enforcement』、略してSLIMEだね。

名前、かっこよすぎ！でも、なんでスライムなの？今のAIに何か困ったことでもあるの？

実は、今の主流な学習方法だと、AIが「おバカ」になっちゃうことがあるんだ。DPOっていう有名な方法があるんだけど、これは「良い回答」と「悪い回答」の差を広げることだけに集中しちゃうんだよ。

差を広げるならいいことじゃない？

それが落とし穴でね。悪い回答の評価を下げるために、ついでに良い回答の評価まで一緒に下げちゃうことがあるんだ。これを「アンラーニング」って言うんだけど、結果としてAIが正しい言葉遣いや論理を忘れちゃうんだよ。

ええっ！ライバルを蹴落とすために自分まで成績下げちゃうみたいな感じ？それはダメだよー！

まさにその通り。そこでSLIMEの出番だ。この手法には大きく3つの工夫があるんだ。まずは「アンカリング」。これは良い回答の確率が下がらないように、しっかり「錨（いかり）」を下ろして固定する仕組みだよ。

なるほど、良いところはキープするんだね！他には？

2つ目は「トークンレベルの安定化」。悪い回答の中にも、実は正しい文法やマシな部分が含まれている。それを全部ダメだと決めつけて確率をゼロにしちゃうと、AIが喋り方自体を忘れちゃうんだ。だから、下げすぎないようにブレーキをかけるんだよ。

全否定は良くないもんね。AIにも優しさが必要なんだ！

最後が「デュアルマージン」。これは「ここまでは絶対に差をつけて」っていう厳しい境界線と、「もっと滑らかに差を調整して」っていう緩い境界線の2つを使い分けるんだ。これで、より精密に学習ができるようになる。

へぇー、二段構えなんだね！それで、実際にやってみたらどうだったの？

Llama 3.2とかQwen 3っていう最新のモデルで試したところ、これまでのDPOやSimPOっていう手法よりも高いスコアを出したんだ。しかも、変な喋り方になることも少なくて、安定感があったみたいだよ。

すごい！SLIME最強じゃん！これがあれば、もっと賢くてお喋りが上手なAIができるってこと？

そうだね。特に、参照用のモデルを使わなくていいから計算も楽だし、これからのアライメントの標準になる可能性があるよ。ただ、まだハイパーパラメータの調整が難しいっていう課題もあるけどね。

じゃあ、私もSLIMEで智也くんの好みにアライメントされちゃおうかな！とりあえず、美味しいケーキを買ってくれる人が好きって学習して！

それはアライメントじゃなくて、ただの「おねだり」だろ。自分で買いに行けよ。

DPOやSimPOといった既存の優先度最適化手法は、正解と不正解の「相対的な差」のみを最適化するため、正解の出力確率自体が低下してしまう「アンラーニング（学習済み知識の喪失）」が発生する問題があった。
不正解の出力を過度に抑制することで、文章の流暢さや多様性が失われる「フォーマット崩壊」も課題となっていた。
提案手法のSLIMEは、正解の確率を維持する『アンカリング』、不正解の確率がゼロに近づきすぎるのを防ぐ『トークンレベルの安定化』、そして2種類の境界線を使い分ける『デュアルマージン』の3つを導入した。
実験の結果、Llama 3.2やQwen 3などのモデルにおいて、DPOやSimPOを上回る性能と高い生成安定性を確認した。

投稿日:AI