12月 09 2025 0 AIをだまし討ち? 会話を重ねて安全対策を突破する「じわじわ攻撃」と、その防御法 投稿者: ユウ 解説 ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…「RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jai…
4月 10 2024 0 言語モデルジェイルブレイクの評価方法を再考する 投稿者: ユウ 解説 ねえ智也、この論文のタイトル見て興味深いんだけど、内容教えてくれない?「言語モデルジェイルブレイクの評価方法を再考する」って、どういうこと? うん、この論文はね、大規模言語モデルが安全でない応答をしないようにするた…