12月 09 2025 0 AIをだまし討ち? 会話を重ねて安全対策を突破する「じわじわ攻撃」と、その防御法 投稿者: ユウ 解説 ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…「RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jai…
7月 18 2024 0 LLMの拒否トレーニングは過去形に一般化するか? 投稿者: ユウ 解説 智也くん、この論文のタイトル「LLMの拒否トレーニングは過去形に一般化するか?」って面白そう!教えてくれる? もちろん、亜美さん。この論文は、LLMが有害な出力を防ぐために行われる拒否トレーニングが、過去形の質問に…