jailbreak - 亜美と智也のAI論文解説

1月 16 2026

AIが一人二役で特訓！？自分自身を攻撃して強くなる最新の安全対策

投稿者: ユウ

解説ねえねえ智也くん！この論文のタイトル、『自分のレッドチーマーになれ』だって！AIが自分自身を攻撃するってこと？なんだか一人で相撲取ってるみたいで変なの！あながち間違ってないよ。レッドチーミングっていうのは、あえて…

4月 15 2024

投稿者: ユウ

解説ねえ智也くん、この論文のタイトルがすごく興味深いんだけど、「サブトキシック質問：LLMの態度変化を探るジェイルブレイク試み」って、どういう内容なの？ああ、この論文はね、大規模言語モデル、略してLLMのセキュリティ…