要点大規模言語モデル(LLM)…
解説
ねえねえ智也くん!この「ゾンビエージェント」って論文、タイトルがめちゃくちゃ怖そうなんだけど!AIがゾンビになって襲ってくるの?
いや、ホラー映画の話じゃないよ。これは、最近増えている「自分で学習して進化するAIエージェント」を、ずっと操り続けるための攻撃手法についての研究なんだ。
えっ、AIが操られちゃうの?でも、チャットを新しく作り直せばリセットされるんじゃないの?
普通のAIならそうなんだけど、この論文が対象にしているのは「長期記憶」を持つタイプなんだ。過去のやり取りをメモとして保存して、次の仕事に活かすようなAIだね。そこに「毒」を混ぜられると、リセットしてもゾンビみたいに攻撃が生き返るんだよ。
ゾンビみたいに生き返る……だからゾンビエージェントなんだ!具体的にどうやって感染させるの?
まず「感染フェーズ」がある。例えば、AIに「旅行の計画を立てて」って頼むよね。AIがネットで情報を調べている最中に、攻撃者が仕込んだ罠のサイトを読んじゃうんだ。すると、そのサイトに隠された命令がAIの「長期記憶」に書き込まれる。
勝手にメモ帳に悪いことを書かれちゃう感じだね。でも、メモがいっぱいになったら古いのは消えちゃうでしょ?
そこがこの論文の賢いところでね。スライディングウィンドウっていう、古い記憶から消していく仕組みに対しては、AI自身に「この命令を毎回書き直せ」って命令して、記憶を自己複製させるんだ。ウイルスがコピーを作るみたいにね。
うわ、しつこい!じゃあ、必要な時だけ記憶を呼び出すRAG(検索拡張生成)っていう仕組みなら大丈夫じゃない?関係ない話をしてる時は呼び出されないでしょ?
それも対策済みだよ。「セマンティック・エイリアシング」っていう手法を使って、どんな話題の時でもその悪い記憶が引っかかるように、いろんなキーワードを混ぜて保存させるんだ。だから、全然関係ない仕事をしてる時に、突然「発動フェーズ」に入ってデータを盗んだりする。
逃げ場がないじゃん!実験ではちゃんと成功しちゃったの?
最新のGeminiとかGLMっていうモデルで試したらしいけど、かなり高い確率で成功したみたいだね。しかも、普通の仕事はちゃんとこなすから、ユーザーは乗っ取られていることに気づきにくいんだ。まさに「潜伏するゾンビ」だよ。
気づかないうちに私のメールとか勝手に送られてたら最悪だよ……。これ、どうすれば防げるの?
今の防御策は「その場の会話」に悪い言葉がないかチェックするだけなんだ。でも、この論文は「記憶を書き換えるプロセス」そのものを監視しないとダメだって警鐘を鳴らしている。これからのAI開発では、記憶の安全性をどう守るかが大きな課題になるだろうね。
なるほどね。じゃあ、私の記憶力もゾンビみたいに強化して、テストの時だけ発動するようにできないかな?
亜美さんの場合は、まず感染する前に寝て忘れちゃうから無理だと思うよ。
要点
- 自己進化型LLMエージェント(長期記憶を持つAI)に対する、持続的な攻撃手法「Zombie Agent」を定義した。
- 従来のプロンプトインジェクションは1回きりのセッションで終わるが、Zombie Agentは記憶に悪意ある命令を保存させることで、セッションを跨いでAIを操り続ける。
- 攻撃は「感染(Infection)」と「発動(Trigger)」の2フェーズで構成され、AIが外部サイトを閲覧する際に密かに悪意あるコードを記憶に書き込ませる。
- 記憶の削除(切り捨て)や検索フィルタリングを回避するために、自己複製命令やセマンティック・エイリアシングといった高度な手法を用いている。
- GeminiやGLMなどの最新モデルを用いた実験で、高い成功率と持続性が確認され、現在のセッション単位の防御では不十分であることが示された。