5月 10 2024 0 AIの安全性:知識グラフを使った新しいバイアス誘導手法 投稿者: ユウ 解説 ねえ智也くん、この「BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models」って論文、何について書かれてるの? ああ…
5月 04 2024 0 勢いを加えたジェイルブレイク攻撃! 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル「BOOSTING JAILBREAK ATTACK WITH MOMENTUM」って何か面白そう!何について書かれてるの? ああ、これは大規模言語モデルが敵対的攻撃にどう対応してい…
4月 12 2024 0 AmpleGCGの解説 投稿者: ユウ 解説 ねえ智也くん、この「AmpleGCG」という論文のタイトルがすごく興味深いんだけど、内容を教えてくれる? もちろん、亜美。この論文は、大規模言語モデルの安全性を高めるための新しいアプローチを提案しているよ。具体的に…