1月 16 2026 0 AIが一人二役で特訓!?自分自身を攻撃して強くなる最新の安全対策 投稿者: ユウ 解説 ねえねえ智也くん!この論文のタイトル、『自分のレッドチーマーになれ』だって!AIが自分自身を攻撃するってこと?なんだか一人で相撲取ってるみたいで変なの! あながち間違ってないよ。レッドチーミングっていうのは、あえて…
4月 15 2024 0 LLMのセキュリティとサブトキシック質問について 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトルがすごく興味深いんだけど、「サブトキシック質問:LLMの態度変化を探るジェイルブレイク試み」って、どういう内容なの? ああ、この論文はね、大規模言語モデル、略してLLMのセキュリティ…