AIエージェントの「勝手な行動」を許さない！鉄壁のルール守護者PCAS

2月 19 2026

解説

ねえねえ智也くん！この『Policy Compiler for Secure Agentic Systems』っていう論文、タイトルが強そうだけど何のことなの？

ああ、それはAIエージェントに「絶対にルールを守らせる」ための仕組みについての研究だよ。最近はAIが勝手にメールを送ったり、データベースを操作したりするけど、それをどう制御するかが問題なんだ。

えっ、AIに「悪いことはしちゃダメだよ」ってプロンプトで言っておけばいいんじゃないの？

それが甘いんだ。プロンプトでの指示は、人間でいう「口約束」みたいなもので、AIが勘違いしたり、悪意のある入力で騙されたりすると簡単に破られちゃうんだよ。これをプロンプトインジェクションって言うんだけどね。

口約束かぁ……。確かに、私も「明日からダイエットする」って言ってすぐお菓子食べちゃうもんね！

……君の意志の弱さと一緒にするのはどうかと思うけど、要するに「AIの善意」に頼るんじゃなくて、システム的に「物理的にできない」ようにしようっていうのがこの論文の趣旨なんだ。

なるほど！で、どうやって「物理的に」止めるの？

PCASっていうシステムを使うんだ。特徴は、エージェントの行動を「依存関係グラフ」として記録すること。誰がどの情報を見て、誰の許可を得てその行動をしようとしているのか、っていう因果関係を全部グラフにするんだよ。

グラフ？折れ線グラフとか？

いや、点と線でつながったネットワーク図みたいなものだね。例えば「上司の承認を得てから送金する」というルールがある場合、単に「承認」という言葉が履歴にあるかじゃなくて、その承認が「今回の送金依頼」に対して正しく行われたものかをグラフで辿って確認するんだ。

へぇー、履歴をただ見るだけじゃダメなの？

ダメなんだ。複数のエージェントがバラバラに動くシステムだと、履歴が混ざって因果関係がわからなくなるからね。PCASは「Datalog」っていう論理プログラミング言語を使って、そのグラフをチェックするルールを書くんだよ。

データログ……？なんか難しそうだけど、それが「リファレンスモニタ」っていう見張り番になるの？

その通り。エージェントが何かアクションを起こそうとするたびに、リファレンスモニタが「その行動はルール違反じゃないか？」をグラフと照らし合わせて判定する。違反なら実行前に強制終了させるんだ。AIの考えとは無関係にね。

すごい！それってどれくらい効果があるの？

実験では、カスタマーサービスのタスクでポリシー遵守率が48%から93%まで上がったらしい。しかも、PCASを導入した状態でルール違反が起きたケースはゼロだったんだって。

93%！ほぼ完璧じゃん！残りの7%は何なの？

それは、リファレンスモニタが違反を止めた結果、タスク自体が完了できなかったケースだね。でも、間違ったことをさせるよりは、止める方が安全だっていう考え方なんだ。

確かに、勝手に変なことされるよりは「できません！」って言われたほうが安心だね。これがあれば、AIに何でも任せられるようになるのかな？

将来性は高いよ。特に医療や金融みたいに、絶対にミスが許されない分野でマルチエージェントシステムを使うには必須の技術になるだろうね。ただ、課題もあるんだ。

課題？あんなにすごいのに？

まず、ポリシーをDatalogで書くのが人間にとって少し難しいこと。それから、グラフが巨大になるとチェックに時間がかかる可能性がある。今後はもっと効率的に、かつ簡単にルールを書けるようにするのが研究の方向性だね。

なるほどねー。じゃあ、私の「お菓子禁止ポリシー」もPCASで管理してもらおうかな！冷蔵庫を開けようとしたら、智也くんがリファレンスモニタとしてタックルして止めてね！

なんで僕が物理的に止めなきゃいけないんだよ。自分で自分をコンパイルしてルール守れよ。

LLMエージェントにプロンプトで指示を与えるだけでは、ポリシー（規則）を確実に守らせることは難しい。
PCAS（Policy Compiler for Agentic Systems）は、エージェントの行動を「依存関係グラフ」としてモデル化し、因果関係を正確に追跡する。
Datalogをベースにした宣言型言語でポリシーを記述し、実行前に「リファレンスモニタ」が違反を検知して強制的にブロックする。
既存のエージェントシステムを大幅に改造することなく導入でき、カスタマーサービス等のタスクでポリシー遵守率を48%から93%に向上させた。
プロンプトインジェクション攻撃に対しても、モデルの推論に依存しない決定論的な防御を可能にする。

投稿日:AI