12月 10 2024 0 AIの脱獄?新しい手法LIARの秘密を探る! 投稿者: ユウ 解説 ねえ、智也くん!この論文『LIAR: Leveraging Alignment to Jailbreak LLMs in Seconds』って面白そうだね。内容教えて! ああ、これは脱獄技術に関する論文だよ。従来の…
8月 07 2024 0 強化学習で大規模言語モデルの危険を探る! 投稿者: ユウ 解説 ねえ、トモヤ!この論文のタイトル「強化学習がアライメントされた大規模言語モデルの隠れた危険を解き明かせるか?」って面白そうだね!内容を教えてくれない? もちろん!この論文は、大規模言語モデル(LLM)が自然言語のタ…
7月 18 2024 0 LLMの拒否トレーニングは過去形に一般化するか? 投稿者: ユウ 解説 智也くん、この論文のタイトル「LLMの拒否トレーニングは過去形に一般化するか?」って面白そう!教えてくれる? もちろん、亜美さん。この論文は、LLMが有害な出力を防ぐために行われる拒否トレーニングが、過去形の質問に…