Webエージェントの安全強化：視覚・テキストの二重攻撃に対抗する多段階敵対的訓練

3月 05 2026

TL;DR

Web画面とアクセシビリティツリーの両方を処理するマルチモーダルWebエージェントは、DOMへのHTMLインジェクションにより両モダリティが同時に改ざんされる「クロスモーダル攻撃」に極めて脆弱です。本論文では、攻撃者とエージェントを同じVLMで共進化させる3段階の訓練フレームワーク「DMAST」を提案し、攻撃成功率を大幅に低減しつつタスク成功率も向上させることに成功しました。実装ではHTML/CSSインジェクションを統一メカニズムとし、教師モデルからの模倣学習、オラクル誘導SFT、自己対戦型強化学習を組み合わせています。

解説

ねえねえ、この論文のタイトル見て。『Webエージェントの安全強化』って。AIがウェブページを操作するやつだよね？

そうだね。最近のマルチモーダルWebエージェントは、画面のスクリーンショットと、アクセシビリティツリーっていう画面の構造情報の両方を見て動作するんだ。

へー、二つの情報源を使うから賢そう！でも、その両方を一度に攻撃できるって書いてあるね。どういうこと？

これが問題なんだ。攻撃者がウェブページのHTMLに細工をすると、スクリーンショットに写る見た目と、アクセシビリティツリーの内容が同時に変わってしまう。これを『クロスモーダル攻撃』って呼んでる。エージェントは完全に騙されてしまうんだ。

わあ、怖い！じゃあ、どうやって守るの？

この論文では『DMAST』っていう三段階の訓練フレームワークを提案してる。まず、攻撃者と防御者、両方の役割を同じVLMにやらせて、互いに競わせながら強くしていくんだ。

え、攻撃も防御も同じAIがやるの？なんで？

防御方法を考えるには、まず最強の攻撃方法を知る必要があるからだよ。具体的には、まず教師モデルから模倣学習して基礎を作って、次に正解の行動を教え込むSFTをして、最後に自分自身と対戦する強化学習で仕上げる。三段階だ。

すごい…で、結果はどうだったの？

評価では、攻撃成功率を大幅に下げつつ、普通のタスクをこなす成功率も上げることに成功した。攻撃に強くなるだけでなく、全体的な性能も上がったってことだ。

一石二鳥だね！これってすごく重要な研究なんだね。

ああ。実世界でWebエージェントを使うには、こうしたセキュリティ対策が必須になる。ただ、この研究にも限界はあって、全ての種類の攻撃を防げるわけじゃないし、訓練コストも高い。あくまで重要な一歩だ。

なるほど…。でも、AI同士を戦わせて強くするって、まるで育てる親みたいだね。子育て大変そう！

…その比喩はちょっと違う気がする。ただ、確かに手間はかかるな。

参考論文: http://arxiv.org/abs/2603.04364v1

投稿日:AI

タグAI Agent AI Security Reinforcement Learning セキュリティマルチモーダルAI マルチモーダルAI 強化学習

Webエージェントの安全強化：視覚・テキストの二重攻撃に対抗する多段階敵対的訓練

TL;DR

解説

Related Posts

関連記事:

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル