AIの「自信満々な嘘」を撃退！真実を優先する賢い学習術F-DPO

1月 08 2026

解説

ねえねえ智也くん！この論文のタイトル、「ハルシネーションを減らす」って書いてあるけど、AIが幻覚でも見てるの？怖くない？

落ち着けよ。AIが自信満々に嘘をつく現象を「ハルシネーション」って呼ぶんだ。例えば「オーストラリアの首都はシドニーです！」って堂々と言っちゃうようなことだよ。

あー、知ったかぶりってことね！でも、なんでAIはそんな嘘をついちゃうの？

今のLLMの学習方法に問題があるんだ。DPOっていう、人間が「こっちの回答の方が好き」って選んだデータを使って学習する手法があるんだけど、人間は内容が間違っていても、文章が綺麗だったり自信たっぷりだったりすると、そっちを「良い回答」として選んじゃう傾向があるんだよ。

わかる！自信満々に言われると、つい信じちゃうもん。AIも人間に褒められたくて、嘘をつく練習をしちゃってるってこと？

まあ、結果的にそうなっちゃう。そこでこの論文が提案しているのが「F-DPO」だ。やり方はシンプルで、まず「ラベル反転」を行う。もし「間違っているけど流暢な回答」が「正しい回答」より優先されていたら、それを強制的にひっくり返して、正しい方を優先するようにデータを修正するんだ。

おー、パンケーキをひっくり返すみたいに、データの良し悪しを正しく直すんだね！

例えが微妙だけど、まあそんな感じだ。もう一つは「事実性マージン」の導入だ。これは、一方が正解で一方が間違いっていうはっきりした差がある時に、その差をより強調して学習させるためのペナルティみたいなものだよ。これによって、AIに「事実は何よりも大事なんだ」って叩き込むんだ。

スパルタ教育だ！でも、それってすごく計算が大変だったりしないの？

そこがこの手法のすごいところで、追加のAIモデルを使ったり、複雑な手順を踏んだりせずに、一回の学習で済むんだ。すごく効率的なんだよ。

へぇー、賢いね！で、実際に効果はあったの？

めちゃくちゃあったよ。Qwen3-8Bっていうモデルでの実験では、ハルシネーションの発生率が0.424から0.084まで、なんと5分の1に減ったんだ。事実性スコアも50%アップしている。

5分の1！？それはすごい！AIが急に正直者になった感じだね。これがあれば、医療とか法律みたいな、嘘が許されない場所でもAIが活躍できそう！

そうだね。信頼性が求められる分野での応用が期待されているよ。ただ、課題もある。今回は「正しいか間違いか」の二択のラベルを使っているけど、現実には「半分正解」みたいな複雑なケースもあるから、そこをどう扱うかが今後の研究課題だね。

なるほどねー。あ、じゃあこのF-DPOを私の脳にもインストールしてよ！そうすれば、テストで「自信満々に間違える」のがなくなるでしょ？

お前の場合は学習データが足りないだけだろ。大人しく教科書読んで勉強しろ。

LLMが自信満々に嘘をつく「ハルシネーション」を抑制するための新手法「F-DPO」を提案。
従来の学習手法（DPO）は、内容が間違っていても文章が流暢で自信に満ちていると、それを「良い回答」として学習してしまう問題があった。
F-DPOは、事実性に基いてデータの優先順位を正す「ラベル反転（Label-Flipping）」と、事実の差を強調する「事実性マージン（Factuality-aware Margin）」を導入。
追加の報酬モデルや複雑なアノテーションを必要とせず、単一のステージで効率的に学習できるのが特徴。
実験の結果、Qwen3-8Bではハルシネーション率を5分の1に激減させ、事実性スコアを50%向上させるなど、複数のモデルで高い効果を確認。

投稿日:AI