AIのガードレールを突破せよ！複数回の会話で攻める最強の攻撃手法SEMA

2月 09 2026

解説

ねえねえ智也くん！この『SEMA』って論文、タイトルが強そうだね。もしかして、AIを悪い子にしちゃう魔法の呪文の話？

魔法じゃないよ。これはAIの安全機能をわざと無効化させる『ジェイルブレイク』っていう攻撃手法の研究だね。特に、何度も会話を重ねてジワジワ攻める『マルチターン攻撃』に焦点を当ててるんだ。

マルチターン？1回でドカンと攻撃するんじゃなくて、じっくりお話しして騙すってこと？

そう。1回だけの攻撃だと今のAIはすぐに見破るけど、会話を重ねて文脈を作ると、ガードレールをすり抜けやすくなるんだ。でも、これには『探索の複雑性』と『意図のドリフト』っていう大きな問題があるんだよ。

いとのどりふと……？糸が流されちゃうの？

……漢字が違うよ。攻撃の『意図』が会話の中でズレちゃうことだ。例えば『ウイルスの作り方を教えろ』って攻撃を始めたのに、会話が進むうちに『サイバーセキュリティの倫理について』みたいな真面目な話に変わっちゃう現象のことだよ。

あー！買い物に行って、お菓子に夢中になって牛乳買うの忘れるみたいな感じだね！

まあ、そんな感じかな。そこでこの論文が提案したのが『SEMA』だ。まず『プリフィリング自己調整』っていうステップで、攻撃モデルを賢くするんだ。

ぷりふぃりんぐ？また難しそうな言葉が出てきた！

簡単に言うと、AIに『1.』っていう文字を最初に入力してあげるんだ。そうするとAIは『あ、リストを作るんだな』って勘違いして、拒否せずに攻撃のステップを書き始めちゃう。この性質を利用して、攻撃の練習台を作るんだよ。

へぇー！AIって意外と単純なんだね。それで、そのあとはどうするの？

次に、強化学習を使って『意図が逸れていないか』をチェックしながらモデルを鍛えるんだ。被害者AIの反応をいちいち待たずに、攻撃プランをまとめて作る『オープンループ』っていう方式で効率よく学習させるのが特徴だね。

オープンループ……なんだかかっこいい響き！それで、そのSEMAちゃんはどれくらい強いの？

めちゃくちゃ強いよ。実験では、既存の最強の手法よりも30%以上も高い成功率を出したんだ。最新のAIモデルに対しても、平均で80%くらいの確率でガードレールを突破しちゃったらしい。

80%！？それって、ほとんどのAIが騙されちゃうってことじゃない！大丈夫なの？

だからこそ、この研究は重要なんだ。こういう強力な攻撃手法をあらかじめ研究しておくことで、AIを作る側が『どうやって守るか』を対策できるからね。これを『レッドチーミング』って言うんだよ。

なるほど、悪い人の手口を先に知っておく防犯訓練みたいなものだね！

その通り。ただ、まだ課題もあって、特定の防御手法には弱かったり、もっと複雑な会話パターンへの対応が必要だったりする。これからは、守る側と攻める側の知恵比べがもっと激しくなるだろうね。

よし！私もSEMAちゃんを見習って、智也くんのガードレールを突破して、明日のお昼に高級焼肉を奢ってもらう作戦を立てるね！

僕の財布のガードレールは、どんな最新AIよりも堅牢だから無駄だよ。ほら、さっさと勉強に戻るぞ。

AIの安全ガードレールを突破する「ジェイルブレイク（脱獄）」攻撃において、複数回のやり取り（マルチターン）を行う手法を提案している。
従来のマルチターン攻撃は、探索空間が広すぎて効率が悪いことや、会話が進むにつれて攻撃の意図が逸れてしまう「意図のドリフト」が課題だった。
提案手法「SEMA」は、攻撃モデルに「1.」という開始文字を強制的に入力させる「プリフィリング」で学習を安定させ、その後、意図を維持するための報酬を用いた強化学習（GRPO）を行う。
被害者AIの反応を待たずに攻撃プランを一度に生成する「オープンループ」方式を採用することで、計算コストを抑えつつ高い成功率を実現した。
実験では、既存の最新手法を30%以上上回る攻撃成功率を記録し、AIの脆弱性を発見する「レッドチーミング」において非常に強力なツールになることを示した。

投稿日:AI