解説

AMI HAPPY

ねえねえ智也くん!この論文のタイトルにある『ロングテール』って何?長いしっぽの恐竜の図鑑の話かな?ワクワクしちゃう!

TOMOYA NEUTRAL

いや、恐竜は関係ない。統計用語で、出現頻度が低い『めったにない珍しい知識』のことだよ。例えば、超マイナーなサッカー選手の名前とかね。

AMI SURPRISED

あー、私の脳内にある『昨日の晩ごはんのおかず』みたいな、すぐ忘れちゃう知識のことだね!

TOMOYA NEUTRAL

それはただの物忘れだろ。問題は、LLMもこういう珍しい知識を聞かれると、自信満々に嘘をついちゃうことなんだ。それを解決するために、外部の知識を検索して持ってくるRAGっていう仕組みがあるんだけど……。

AMI HAPPY

検索すればいいなら簡単じゃん!ググるみたいに!

TOMOYA SAD

それが難しいんだ。今のAIの検索(密検索)は、言葉の意味をベクトルっていう数字の羅列にして探すんだけど、珍しい言葉だとベクトルがうまく作れなくて、昔ながらのキーワード一致検索(BM25)に負けちゃうことが多いんだよ。

AMI SURPRISED

えー!最新のAIが昔の技術に負けちゃうの?それじゃあAIの立場がないじゃん!

TOMOYA NEUTRAL

そう。だからこの論文の『RPDR』は、AIに珍しい知識のクイズを自作させて、それで検索モデルを特訓しようっていう提案なんだ。でも、ただクイズを解かせるだけじゃダメなんだよ。

AMI SURPRISED

特訓なのに?スパルタじゃないとダメってこと?

TOMOYA NEUTRAL

逆だよ。質の高い、つまり『学習しやすいデータ』だけを選ぶのがコツなんだ。ここで『ラウンドトリップ予測』っていう面白い方法を使う。

AMI HAPPY

ラウンドトリップ……往復旅行?AIが旅行に行くの?お土産は?

TOMOYA NEUTRAL

行かないよ。テキストを一度ベクトルにして、そこからまた元のテキストに戻せるか試すんだ。ちゃんと元通りに戻せたら、そのベクトルは言葉の特徴を正しく捉えてるって証拠だろ?

AMI HAPPY

なるほど!「こんにちは」を暗号にして、また「こんにちは」に戻せたら、その暗号はバッチリってことね!

TOMOYA HAPPY

そう。そうやって厳選したデータで検索モデルを鍛えたら、マイナーな知識でも正確に検索できるようになったんだ。実験では、今まで勝てなかったBM25っていう手法にも圧勝したんだよ。

AMI SURPRISED

すごーい!AIの下克上だ!でも、どんな質問でも完璧なの?

TOMOYA NEUTRAL

いや、まだ課題はある。名前が似ているだけの複雑な言葉とかは苦手なんだ。だから、質問の内容を見て『これはRPDRが得意』『これはBM25が得意』って自動で振り分けるルーティングっていう仕組みも提案してる。

AMI HAPPY

適材適所ってことだね!智也くんが解説担当で、私が盛り上げ担当みたいな!

TOMOYA NEUTRAL

……まあ、そんな感じかな。将来的には、もっと複雑な知識もこの方法で学習できるようになるはずだ。ただ、今はまだテキストベースだから、画像とか他のデータにも広げていく必要があるけどね。

AMI HAPPY

よーし、私もラウンドトリップ予測で、今日の晩ごはんのメニューをベクトルにして、明日の朝には復元できるように特訓するね!

TOMOYA NEUTRAL

いや、それは普通にメモ帳に書けよ。

要点

  • LLMは出現頻度の低い「ロングテール(稀な)」知識を正確に思い出すのが苦手で、嘘をつく(ハルシネーション)ことがある。
  • 外部知識を検索して補完するRAGという手法があるが、従来のAIによる検索(密検索)は稀な単語のベクトル化が下手で、キーワード一致(BM25)に負けることが多かった。
  • 提案手法のRPDRは、AIに稀な知識のクイズを大量に作らせ、その中から「学習しやすいデータ」を厳選して検索モデルを鍛え直すフレームワークである。
  • データの厳選には「ラウンドトリップ予測」を使用する。これは、テキストをベクトルに変換した後、元のテキストを復元できるかどうかでデータの質を判定する仕組み。
  • 実験の結果、RPDRは従来の検索手法を大きく上回り、さらに質問の内容に応じて検索手法を切り替える「ルーティング」を導入することで、より高い精度を達成した。