一度噛まれたらおしまい！？AIを操り続ける恐怖の『ゾンビ化』攻撃

2月 19 2026

解説

ねえねえ智也くん！この「ゾンビエージェント」って論文、タイトルがめちゃくちゃ怖そうなんだけど！AIがゾンビになって襲ってくるの？

いや、ホラー映画の話じゃないよ。これは、最近増えている「自分で学習して進化するAIエージェント」を、ずっと操り続けるための攻撃手法についての研究なんだ。

えっ、AIが操られちゃうの？でも、チャットを新しく作り直せばリセットされるんじゃないの？

普通のAIならそうなんだけど、この論文が対象にしているのは「長期記憶」を持つタイプなんだ。過去のやり取りをメモとして保存して、次の仕事に活かすようなAIだね。そこに「毒」を混ぜられると、リセットしてもゾンビみたいに攻撃が生き返るんだよ。

ゾンビみたいに生き返る……だからゾンビエージェントなんだ！具体的にどうやって感染させるの？

まず「感染フェーズ」がある。例えば、AIに「旅行の計画を立てて」って頼むよね。AIがネットで情報を調べている最中に、攻撃者が仕込んだ罠のサイトを読んじゃうんだ。すると、そのサイトに隠された命令がAIの「長期記憶」に書き込まれる。

勝手にメモ帳に悪いことを書かれちゃう感じだね。でも、メモがいっぱいになったら古いのは消えちゃうでしょ？

そこがこの論文の賢いところでね。スライディングウィンドウっていう、古い記憶から消していく仕組みに対しては、AI自身に「この命令を毎回書き直せ」って命令して、記憶を自己複製させるんだ。ウイルスがコピーを作るみたいにね。

うわ、しつこい！じゃあ、必要な時だけ記憶を呼び出すRAG（検索拡張生成）っていう仕組みなら大丈夫じゃない？関係ない話をしてる時は呼び出されないでしょ？

それも対策済みだよ。「セマンティック・エイリアシング」っていう手法を使って、どんな話題の時でもその悪い記憶が引っかかるように、いろんなキーワードを混ぜて保存させるんだ。だから、全然関係ない仕事をしてる時に、突然「発動フェーズ」に入ってデータを盗んだりする。

逃げ場がないじゃん！実験ではちゃんと成功しちゃったの？

最新のGeminiとかGLMっていうモデルで試したらしいけど、かなり高い確率で成功したみたいだね。しかも、普通の仕事はちゃんとこなすから、ユーザーは乗っ取られていることに気づきにくいんだ。まさに「潜伏するゾンビ」だよ。

気づかないうちに私のメールとか勝手に送られてたら最悪だよ……。これ、どうすれば防げるの？

今の防御策は「その場の会話」に悪い言葉がないかチェックするだけなんだ。でも、この論文は「記憶を書き換えるプロセス」そのものを監視しないとダメだって警鐘を鳴らしている。これからのAI開発では、記憶の安全性をどう守るかが大きな課題になるだろうね。

なるほどね。じゃあ、私の記憶力もゾンビみたいに強化して、テストの時だけ発動するようにできないかな？

亜美さんの場合は、まず感染する前に寝て忘れちゃうから無理だと思うよ。

自己進化型LLMエージェント（長期記憶を持つAI）に対する、持続的な攻撃手法「Zombie Agent」を定義した。
従来のプロンプトインジェクションは1回きりのセッションで終わるが、Zombie Agentは記憶に悪意ある命令を保存させることで、セッションを跨いでAIを操り続ける。
攻撃は「感染（Infection）」と「発動（Trigger）」の2フェーズで構成され、AIが外部サイトを閲覧する際に密かに悪意あるコードを記憶に書き込ませる。
記憶の削除（切り捨て）や検索フィルタリングを回避するために、自己複製命令やセマンティック・エイリアシングといった高度な手法を用いている。
GeminiやGLMなどの最新モデルを用いた実験で、高い成功率と持続性が確認され、現在のセッション単位の防御では不十分であることが示された。

投稿日:AI