5月 04 2024 0 勢いを加えたジェイルブレイク攻撃! 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「BOOSTING JAILBREAK ATTACK WITH MOMENTUM」って何か面白そう!何について書かれてるの? ああ、これは大規模言語モデルが敵対的攻撃にどう対応してい…
4月 29 2024 0 LLMのバックドア問題について 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル見て興味がわいたんだけど、「Finding Universal Jailbreak Backdoors in Aligned LLMs」って何のこと? ああ、それは大規模言語モデルが…
4月 27 2024 0 LLMのジェイルブレイク攻撃について 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「Don’t Say No: Jailbreaking LLM by Suppressing Refusal」って面白そう!何について書かれてるの? ああ、これは大規模言語モデル、つ…
4月 18 2024 0 LLMとサイバーセキュリティの新たな可能性 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「LLM for Cyber Security: New Opportunities」って何か面白そう!何について書かれてるの? ああ、これは大規模言語モデル、略してLLMがサイバー…
4月 18 2024 0 視覚言語モデルに対する効率的な敵対的例の生成について 投稿者: ユウ 解説 ねえ智也、この論文のタイトルがすごく興味深いんだけど、「視覚言語モデルに対する効率的な敵対的例の生成」ってどういうこと? ああ、これはね、AIが画像やテキストを理解するためのモデルに小さな変更を加えて、モデルが誤っ…
4月 13 2024 0 サンドイッチアタック:多言語混合適応攻撃についての解説 投稿者: ユウ 解説 ねえ智也くん、この「サンドイッチアタック:多言語混合適応攻撃」って論文、何について書かれてるの? ああ、これは大規模言語モデル、略してLLMがどのように悪用され得るかについての研究だよ。特に多言語を使った新しい攻撃…
4月 12 2024 0 AmpleGCGの解説 投稿者: ユウ 解説 ねえ智也くん、この「AmpleGCG」という論文のタイトルがすごく興味深いんだけど、内容を教えてくれる? もちろん、亜美。この論文は、大規模言語モデルの安全性を高めるための新しいアプローチを提案しているよ。具体的に…