解説

AMI SURPRISED

ねえねえ智也くん!この「ゾンビエージェント」って論文、タイトルがめちゃくちゃ怖そうなんだけど!AIがゾンビになって襲ってくるの?

TOMOYA NEUTRAL

いや、ホラー映画の話じゃないよ。これは、最近増えている「自分で学習して進化するAIエージェント」を、ずっと操り続けるための攻撃手法についての研究なんだ。

AMI SURPRISED

えっ、AIが操られちゃうの?でも、チャットを新しく作り直せばリセットされるんじゃないの?

TOMOYA NEUTRAL

普通のAIならそうなんだけど、この論文が対象にしているのは「長期記憶」を持つタイプなんだ。過去のやり取りをメモとして保存して、次の仕事に活かすようなAIだね。そこに「毒」を混ぜられると、リセットしてもゾンビみたいに攻撃が生き返るんだよ。

AMI HAPPY

ゾンビみたいに生き返る……だからゾンビエージェントなんだ!具体的にどうやって感染させるの?

TOMOYA NEUTRAL

まず「感染フェーズ」がある。例えば、AIに「旅行の計画を立てて」って頼むよね。AIがネットで情報を調べている最中に、攻撃者が仕込んだ罠のサイトを読んじゃうんだ。すると、そのサイトに隠された命令がAIの「長期記憶」に書き込まれる。

AMI NEUTRAL

勝手にメモ帳に悪いことを書かれちゃう感じだね。でも、メモがいっぱいになったら古いのは消えちゃうでしょ?

TOMOYA NEUTRAL

そこがこの論文の賢いところでね。スライディングウィンドウっていう、古い記憶から消していく仕組みに対しては、AI自身に「この命令を毎回書き直せ」って命令して、記憶を自己複製させるんだ。ウイルスがコピーを作るみたいにね。

AMI SURPRISED

うわ、しつこい!じゃあ、必要な時だけ記憶を呼び出すRAG(検索拡張生成)っていう仕組みなら大丈夫じゃない?関係ない話をしてる時は呼び出されないでしょ?

TOMOYA NEUTRAL

それも対策済みだよ。「セマンティック・エイリアシング」っていう手法を使って、どんな話題の時でもその悪い記憶が引っかかるように、いろんなキーワードを混ぜて保存させるんだ。だから、全然関係ない仕事をしてる時に、突然「発動フェーズ」に入ってデータを盗んだりする。

AMI SAD

逃げ場がないじゃん!実験ではちゃんと成功しちゃったの?

TOMOYA NEUTRAL

最新のGeminiとかGLMっていうモデルで試したらしいけど、かなり高い確率で成功したみたいだね。しかも、普通の仕事はちゃんとこなすから、ユーザーは乗っ取られていることに気づきにくいんだ。まさに「潜伏するゾンビ」だよ。

AMI SURPRISED

気づかないうちに私のメールとか勝手に送られてたら最悪だよ……。これ、どうすれば防げるの?

TOMOYA NEUTRAL

今の防御策は「その場の会話」に悪い言葉がないかチェックするだけなんだ。でも、この論文は「記憶を書き換えるプロセス」そのものを監視しないとダメだって警鐘を鳴らしている。これからのAI開発では、記憶の安全性をどう守るかが大きな課題になるだろうね。

AMI HAPPY

なるほどね。じゃあ、私の記憶力もゾンビみたいに強化して、テストの時だけ発動するようにできないかな?

TOMOYA NEUTRAL

亜美さんの場合は、まず感染する前に寝て忘れちゃうから無理だと思うよ。

要点

  • 自己進化型LLMエージェント(長期記憶を持つAI)に対する、持続的な攻撃手法「Zombie Agent」を定義した。
  • 従来のプロンプトインジェクションは1回きりのセッションで終わるが、Zombie Agentは記憶に悪意ある命令を保存させることで、セッションを跨いでAIを操り続ける。
  • 攻撃は「感染(Infection)」と「発動(Trigger)」の2フェーズで構成され、AIが外部サイトを閲覧する際に密かに悪意あるコードを記憶に書き込ませる。
  • 記憶の削除(切り捨て)や検索フィルタリングを回避するために、自己複製命令やセマンティック・エイリアシングといった高度な手法を用いている。
  • GeminiやGLMなどの最新モデルを用いた実験で、高い成功率と持続性が確認され、現在のセッション単位の防御では不十分であることが示された。