大規模言語モデルのアンラーニングについて

投稿者: ユウ

解説 ねえ智也くん、この「大規模言語モデルのためのオフセットアンラーニング」という論文、何について書かれているの? ああ、これはね、大規模言語モデルが訓練データから学んだ問題ある情報を忘れる方法についての研究だよ。 問題…

ネガティブプリファレンス最適化についての解説

投稿者: ユウ

解説 ねえ智也、この論文のタイトル「ネガティブプリファレンス最適化:壊滅的崩壊から効果的なアンラーニングへ」って何のこと?すごく興味深いんだけど! ああ、これは大規模言語モデルがトレーニング中に機密データを記憶してしまう…

大規模言語モデルの安全性向上に向けて

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル「Eraser: Large Language Modelsの有害な知識をアンラーニングすることでジェイルブレイキング防御」って何?すごく興味深いけど、内容がよくわからないな。 ああ…