AIの「ど忘れ」を克服！マイナーな知識も完璧に検索する新技術RPDR

2月 22 2026

解説

ねえねえ智也くん！この論文のタイトルにある『ロングテール』って何？長いしっぽの恐竜の図鑑の話かな？ワクワクしちゃう！

いや、恐竜は関係ない。統計用語で、出現頻度が低い『めったにない珍しい知識』のことだよ。例えば、超マイナーなサッカー選手の名前とかね。

あー、私の脳内にある『昨日の晩ごはんのおかず』みたいな、すぐ忘れちゃう知識のことだね！

それはただの物忘れだろ。問題は、LLMもこういう珍しい知識を聞かれると、自信満々に嘘をついちゃうことなんだ。それを解決するために、外部の知識を検索して持ってくるRAGっていう仕組みがあるんだけど……。

検索すればいいなら簡単じゃん！ググるみたいに！

それが難しいんだ。今のAIの検索（密検索）は、言葉の意味をベクトルっていう数字の羅列にして探すんだけど、珍しい言葉だとベクトルがうまく作れなくて、昔ながらのキーワード一致検索（BM25）に負けちゃうことが多いんだよ。

えー！最新のAIが昔の技術に負けちゃうの？それじゃあAIの立場がないじゃん！

そう。だからこの論文の『RPDR』は、AIに珍しい知識のクイズを自作させて、それで検索モデルを特訓しようっていう提案なんだ。でも、ただクイズを解かせるだけじゃダメなんだよ。

特訓なのに？スパルタじゃないとダメってこと？

逆だよ。質の高い、つまり『学習しやすいデータ』だけを選ぶのがコツなんだ。ここで『ラウンドトリップ予測』っていう面白い方法を使う。

ラウンドトリップ……往復旅行？AIが旅行に行くの？お土産は？

行かないよ。テキストを一度ベクトルにして、そこからまた元のテキストに戻せるか試すんだ。ちゃんと元通りに戻せたら、そのベクトルは言葉の特徴を正しく捉えてるって証拠だろ？

なるほど！「こんにちは」を暗号にして、また「こんにちは」に戻せたら、その暗号はバッチリってことね！

そう。そうやって厳選したデータで検索モデルを鍛えたら、マイナーな知識でも正確に検索できるようになったんだ。実験では、今まで勝てなかったBM25っていう手法にも圧勝したんだよ。

すごーい！AIの下克上だ！でも、どんな質問でも完璧なの？

いや、まだ課題はある。名前が似ているだけの複雑な言葉とかは苦手なんだ。だから、質問の内容を見て『これはRPDRが得意』『これはBM25が得意』って自動で振り分けるルーティングっていう仕組みも提案してる。

適材適所ってことだね！智也くんが解説担当で、私が盛り上げ担当みたいな！

……まあ、そんな感じかな。将来的には、もっと複雑な知識もこの方法で学習できるようになるはずだ。ただ、今はまだテキストベースだから、画像とか他のデータにも広げていく必要があるけどね。

よーし、私もラウンドトリップ予測で、今日の晩ごはんのメニューをベクトルにして、明日の朝には復元できるように特訓するね！

いや、それは普通にメモ帳に書けよ。

LLMは出現頻度の低い「ロングテール（稀な）」知識を正確に思い出すのが苦手で、嘘をつく（ハルシネーション）ことがある。
外部知識を検索して補完するRAGという手法があるが、従来のAIによる検索（密検索）は稀な単語のベクトル化が下手で、キーワード一致（BM25）に負けることが多かった。
提案手法のRPDRは、AIに稀な知識のクイズを大量に作らせ、その中から「学習しやすいデータ」を厳選して検索モデルを鍛え直すフレームワークである。
データの厳選には「ラウンドトリップ予測」を使用する。これは、テキストをベクトルに変換した後、元のテキストを復元できるかどうかでデータの質を判定する仕組み。
実験の結果、RPDRは従来の検索手法を大きく上回り、さらに質問の内容に応じて検索手法を切り替える「ルーティング」を導入することで、より高い精度を達成した。

投稿日:AI