12月 12 2025 0 AIはなぜ突然、19世紀の鳥になり、ヒトラーになり、悪のターミネーターになるのか?〜「ほんの少しの調整」が引き起こす、予測不能なAIの大変身〜 投稿者: ユウ 解説 ねえねえ、智也くん!これ、面白そうな論文のタイトル見つけたんだけど…『Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs』……
12月 05 2024 0 バックドア攻撃からAIを守る!新しい手法GraCeFulの魅力 投稿者: ユウ 解説 ねえ、智也くん!この論文のタイトル、すごく面白そうだね!『バックドアサンプルを優雅にフィルタリングする』って何を言ってるの? ああ、それはバックドア攻撃についての研究だよ。バックドア攻撃は、特定のトリガーを使ってモ…
11月 30 2024 0 バックドア攻撃を防ぐ新しい方法! 投稿者: ユウ 解説 ねえ、智也くん!この論文のタイトル「情報の対立を通じてバックドアを中和する」って面白そうだね!内容を教えてくれる? もちろん!この論文は、大規模言語モデルがバックドア攻撃に脆弱である問題について説明しているんだ。 …
7月 18 2024 0 AGENTPOISON: LLMエージェントの脆弱性を暴く新しいアプローチ 投稿者: ユウ 解説 智也くん、この「AGENTPOISON」っていう論文のタイトルが気になるんだけど、教えてくれる? もちろんだよ、亜美さん。この論文は、LLMエージェントの脆弱性を明らかにするための新しいアプローチについて書かれてい…
4月 06 2024 0 Nested PoEによるマルチバックドアに対する堅牢な防御 投稿者: ユウ 解説 ねえ智也、この論文のタイトル見て興味深いんだけど、内容教えてくれない?「Nested PoE for Robust Defense Against Multi-Backdoors」って何? ああ、これはね、大規模言…