AIも「空気を読む」時代へ？相手の立場に立って悪口を見抜く最新技術！

1月 07 2026

解説

ねえねえ智也くん！この『ペルソナを考慮した堅牢な有害表現検知』っていう論文、タイトルがかっこよくて気になっちゃった！

ああ、それは面白いところに目をつけたね。簡単に言うと、AIが「誰の視点で」ネット上の悪口を判定するか、っていう研究だよ。

えっ、悪口って誰が見ても悪口じゃないの？「バカ」とか「アホ」とか！

それがそうでもないんだ。ある人には冗談に聞こえても、別の人種や性別の人にはすごく攻撃的に感じられることがある。これを「主観性」の問題って言うんだけど、今のAIはそこを無視して「一律の正解」を出そうとしがちなんだよね。

なるほど〜。じゃあ、AIに「あなたは〇〇さんです」ってなりきってもらえばいいのかな？

その通り。でも、ただ「なりきって」と指示するだけじゃ不十分なんだ。この論文では、モデルの種類や対象となるペルソナによって、最適な指示の出し方がバラバラだってことを突き止めたんだよ。

えー、じゃあどうすればいいの？智也くん、助けて！

そこでこの論文が提案しているのが、2つの工夫だ。1つは「TextGrad」っていう技術を使って、AI自身に「どういうプロンプト（指示文）ならそのペルソナになりきれるか」を自動で改善させること。

AIが自分で自分の指示を直すの？賢すぎ！

もう1つは、複数のプロンプトで出した判定結果を「SVM」っていう機械学習のモデルを使って賢くまとめる「アンサンブル」っていう手法だね。単純な多数決じゃなくて、それぞれの判定のクセを学習して最終的な答えを出すんだ。

アンサンブル……合奏みたいで素敵！それで、結果はどうだったの？

実験の結果、このSVMを使ったアンサンブルが、どんなペルソナに対しても一番安定して高い精度を出せたんだ。単一のプロンプト手法よりもずっと「堅牢」、つまりミスが少なくなったんだよ。

すごいじゃん！これがあれば、SNSのパトロールもみんなが納得できる感じになるね！

そうだね。多様な価値観を認める「複数主義的」なAI評価への大きな一歩だよ。ただ、特定の属性、例えばヒスパニック系の女性の判定とかではまだ課題が残っているみたいだけどね。

ふむふむ。じゃあ次は、私の「天然ボケ」を「天才的なユーモア」だと判定してくれるペルソナAIを作ってよ！

それは主観の問題じゃなくて、ただの事実誤認だろ。却下。……さ、研究室に戻るぞ。

投稿日:AI