AIの暴走を0.03秒で阻止！爆速ガードマン「Trajectory Guard」の秘密

1月 05 2026

解説

ねえねえ智也くん！この『Trajectory Guard』って論文、なんだか強そうな名前だね。ガードマンみたいなAIなの？

あながち間違いじゃないよ。これはLLMエージェント、つまり自分で考えて行動するAIが、変な計画を立てて暴走しないように見張るための技術なんだ。

暴走！？AIが勝手に変なことしちゃうの？怖いんだけど！

例えば「銀行の残高を確認して」って頼んだのに、なぜか「ファイルを全部消去する」なんて手順を計画に混ぜちゃうことがあるんだ。これを『異常な軌跡（トラジェクトリ）』と呼ぶんだけど、今の技術だとこれを見つけるのが難しいんだよ。

トラジェクトリ……？あ、AIがやる「手順リスト」みたいなものかな。でも、なんで見つけるのが難しいの？

いい質問だね。これまでの方法は、手順全体を平均化して一つのベクトル（数値の塊）にしてたから、一箇所だけおかしな手順が混ざってても薄まって気づけないんだ。かといって、別のLLMに「これ合ってる？」って聞くと、返事まで1秒近くかかって、リアルタイムのガードには遅すぎるんだよ。

なるほどねー。平均しちゃうと、カレーの中に一粒だけチョコが入ってても気づかないみたいな感じか！

……例えは独特だけど、まあそういうことだ。そこでこの論文が提案したのが『Trajectory Guard』。これは『Siamese Recurrent Autoencoder』っていう構造を使っているんだ。

しあめーぜ……？猫の種類？

シャム猫の「サイアミーズ」と同じ語源で、2つのネットワークが対になっている構造のことだよ。片方で「ユーザーの依頼（タスク）」を処理し、もう片方で「AIの計画（軌跡）」を処理して、それらがちゃんと噛み合っているかをチェックするんだ。

へぇー！2つの目で見張ってる感じなんだね。具体的にはどうやってチェックしてるの？

『ハイブリッド損失関数』っていうのを使っている。1つは『対照学習』で、タスクと計画が意味的に合っているかを見る。もう1つは『再構成学習』。これは、計画の手順が論理的な順番になっているか、つまり「計画の文法」が正しいかをチェックするんだ。この2つを同時にやるのがミソだね。

「内容は合ってるか」と「順番はめちゃくちゃじゃないか」を両方見てるんだね。それってすごいの？

すごいよ。実験では、偽物の異常を混ぜたデータで90%前後の精度で正解を見抜いたし、何より爆速なんだ。LLMに判定させるより20倍くらい速くて、たった0.03秒でチェックが終わる。これならAIが動く直前に「待った！」をかけられる。

0.03秒！瞬きするより速いじゃん！これがあれば、AIに安心してお仕事任せられるね。

そうだね。将来的には、セキュリティが厳しい企業のシステムとか、複雑な操作を自動化するエージェントの安全装置として必須になるかもしれない。ただ、まだ課題もあって、手順が10ステップを超えるような長い計画だと、少し精度が落ちちゃうらしいんだ。

あー、あんまり長いとガードマンさんも疲れちゃうのかな。もっと記憶力を良くしなきゃだね！

疲れの問題じゃないけど……。今後は『アテンション』っていう、重要な部分に注目する仕組みを取り入れて、長い計画にも対応できるように研究が進むはずだよ。

すごいなぁ。よし、私も智也くんが変なこと言わないように『智也ガード』を開発しなきゃ！

僕は変なこと言わないし、君の場合はまず自分の『天然発言ガード』を開発したほうがいいと思うよ。

LLMエージェントが生成する複数ステップの行動計画（軌跡）における異常を、リアルタイムで検知する軽量モデル「Trajectory Guard」を提案。
既存の埋め込みベクトルを平均化する手法では異常が薄まってしまい、LLMを判定役にする手法（LLM Judge）では処理が遅すぎるという課題を解決。
Siamese Recurrent Autoencoder（双子型の再帰型自己符号化器）という構造を採用し、タスクと計画の整合性と、計画自体の構造的な正しさを同時に判定する。
ハイブリッド損失関数を導入し、対照学習（タスクに合っているか）と再構成学習（手順がバラバラでないか）を組み合わせて学習させる。
実験の結果、F1スコア0.88〜0.94という高精度を達成しつつ、LLM Judgeより17〜27倍高速な32ミリ秒での推論を実現した。

投稿日:AI