文章のクセで犯人捜し！？AIが教える「匿名」の守り方

2月 28 2026

解説

智也くん、見て見て！この論文のタイトル、『脱匿名化リスク』だって。なんだかスパイ映画みたいでカッコよくない？

カッコいい話じゃないよ。これは、名前を隠して書いた文章から、AIを使って「誰が書いたか」を暴き出しちゃうリスクについての研究なんだ。

ええっ、名前を消してもバレちゃうの！？私の秘密の日記も危ないってこと？

まあ、ネットに公開してなければ大丈夫だけどね。この論文では、ニュース記事とかの著者が、文体のクセで特定される危険性を指摘しているんだ。ジャーナリストや内部告発者にとっては死活問題だよ。

文体のクセ……？私、そんなの意識したことないよ。語尾に「ぴょん」とか付けなきゃバレないんじゃない？

そんな単純な話じゃないんだ。単語の平均的な長さとか、句読点の打ち方、よく使う助詞の種類とか、無意識に出る統計的な特徴があるんだよ。これを「文体論（スタイロメトリー）」って言うんだ。

スタイロメトリー……呪文みたい。それで、この論文はどうやって犯人……じゃなくて、著者を見つけるの？

「SALA」っていう新しい手法を提案しているんだ。これは、さっき言った統計的な特徴を計算するツールと、LLMの推論能力を組み合わせたエージェントなんだよ。

ツールとLLMの合体技だね！具体的にはどう動くの？

まず、記事からトピックや場所を抜き出して、ネット検索で「書きそうな人」の候補を集める。次に、その候補者たちが過去に書いた文章と、ターゲットの文章をSALAで比較するんだ。

比較って、具体的に何を見てるの？

語彙の豊富さや文の長さ、ポジティブかネガティブかといった感情の傾向まで、細かく数値化してLLMに渡すんだ。LLMはそれを見て、「この二つの文章は同じ人が書いた可能性が高い」って論理的に判断するんだよ。

へぇー、AIが探偵さんみたいに推理するんだね！でも、そんなにうまくいくのかな？

実験結果によると、かなり強力だよ。特に過去の著者のデータを蓄積した「データベース」を使うと、100人の候補者がいても9割以上の確率で正解を当てられたんだ。

9割！？もう逃げられないじゃん！どうしよう、私の「お腹すいた」っていう投稿も、世界中の食いしん坊の中から特定されちゃう！

君の投稿は特定するまでもない気がするけど……。でも安心して、この研究は「守る方法」も考えているんだ。「アノニマイゼーション・エンハンサー」っていうモジュールがある。

守る方法？どうやるの？

AIが「あなたの文章はここが特徴的だからバレやすいですよ」って教えてくれて、そのクセを消すように書き換えを提案してくれるんだ。例えば「もっと難しい言葉を使って」とか「文を短く切って」とかね。

なるほど！AIに自分のクセをカモフラージュしてもらうんだね。これがあれば、匿名性が守られるってことか。

そうだね。ただ、課題もある。LLMが嘘をつく「ハルシネーション」のリスクや、計算コストの問題だ。でも、将来的にこの技術が発展すれば、プライバシーを守るための強力なツールになるはずだよ。

すごいね！よし、私も今日から文体を変えて、ミステリアスな女子大生を演じてみるよ。まずは……「吾輩は亜美である。単位はまだない」……どう？

それ、夏目漱石のパクリだって一瞬でバレるし、単位がないのはただの自業自得だろ。

投稿日:AI