勢いを加えたジェイルブレイク攻撃!

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル「BOOSTING JAILBREAK ATTACK WITH MOMENTUM」って何か面白そう!何について書かれてるの? ああ、これは大規模言語モデルが敵対的攻撃にどう対応してい…

LLMのバックドア問題について

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル見て興味がわいたんだけど、「Finding Universal Jailbreak Backdoors in Aligned LLMs」って何のこと? ああ、それは大規模言語モデルが…

LLMのジェイルブレイク攻撃について

投稿者: ユウ

解説 ねえ智也くん、この論文のタイトル「Don’t Say No: Jailbreaking LLM by Suppressing Refusal」って面白そう!何について書かれてるの? ああ、これは大規模言語モデル、つ…

AmpleGCGの解説

投稿者: ユウ

解説 ねえ智也くん、この「AmpleGCG」という論文のタイトルがすごく興味深いんだけど、内容を教えてくれる? もちろん、亜美。この論文は、大規模言語モデルの安全性を高めるための新しいアプローチを提案しているよ。具体的に…