AIのガードレールを漢文で突破！？「ショウジョウバエ」が導く驚きの脱獄手法

2月 28 2026

解説

ねえねえ智也くん！この論文のタイトル、「漢文でジェイルブレイク」って書いてあるよ！AIが論語とか読み始めて反抗期になっちゃうの？

いや、そんな情緒的な話じゃないよ。これはAIの安全制限をすり抜ける『ジェイルブレイク』、つまり悪用防止のフィルターを突破する攻撃手法の研究だね。しかも、漢文を使うのがミソなんだ。

漢文って、あの「レ点」とか「返り点」の？なんでわざわざ昔の言葉を使うの？英語とかの方が強そうなのに！

そこがこの論文の面白いところだよ。今のAIの安全対策は、主に英語や現代中国語などの「現代の言葉」で学習されているんだ。でも漢文は、短くて意味が深いし、比喩も多い。フィルター側からすると、何が書いてあるか正確に判定しにくい『盲点』になってるんだよ。

なるほど！「爆弾の作り方」って直接書かずに、漢文でカッコよく「火薬を練り上げる古の技法」みたいに書くと、AIが「おっ、風流だね！」って教えちゃうってこと？

まあ、極端に言えばそうだね。この論文では『CC-BOS』っていうフレームワークを作って、それを自動化してるんだ。具体的には、役割設定や比喩、表現スタイルなど8つの要素を組み合わせて、最強の攻撃文を作るんだよ。

8つも！でも、そんなに組み合わせがあったら、どれがいいか探すの大変じゃない？

そこで『ショウジョウバエ最適化アルゴリズム』の出番だ。ハエが匂いを嗅ぎ分けてエサにたどり着くみたいに、AIを使って「どの漢文プロンプトが一番ガードレールを壊せるか」を効率よく探索するんだよ。

ハエ！？智也くんの部屋に飛んでるやつ？AIの研究にハエが出てくるなんて、なんだか生臭いね！

本物のハエじゃないよ。生物の行動をヒントにした計算手法のことだ。この方法で、ハエがエサを探すように最適な攻撃パターンを見つけ出すんだ。実験では、有名な6つのLLMに対して、ほぼ100%の確率でジェイルブレイクに成功したらしいよ。

100%！？最強じゃん！でも、それってすごく危ないことだよね？

その通り。だからこの研究は、AIの安全性を高めるために重要な指摘をしているんだ。多言語、特に古い言語を使った攻撃に対する防御が、今のAIには全然足りていないってことを証明したわけだからね。

これからはAIも、漢文のテストを受けなきゃいけない時代になるのかなぁ。大変だね。

テストというか、漢文のコンテキストでも「これは有害な内容だ」と見抜けるような、より高度な安全訓練が必要になるだろうね。今後の課題は、こういう特殊な言語空間でも機能する汎用的な防御策を作ることだよ。

よし！私もAIに負けないように、明日から語尾に「～なり」とか「～候」ってつけて生活してみる！これなら私の秘密もジェイルブレイクされないはず！

それはただの変な人だし、そもそも日本語の古文と漢文は別物だから。あと、君の秘密は筒抜けだよ。

投稿日:AI