ねえ智也くん、この論文のタイト…
解説
ねえねえ智也くん!この論文のタイトルにある『ロングテール』って何?長いしっぽの恐竜の図鑑の話かな?ワクワクしちゃう!
いや、恐竜は関係ない。統計用語で、出現頻度が低い『めったにない珍しい知識』のことだよ。例えば、超マイナーなサッカー選手の名前とかね。
あー、私の脳内にある『昨日の晩ごはんのおかず』みたいな、すぐ忘れちゃう知識のことだね!
それはただの物忘れだろ。問題は、LLMもこういう珍しい知識を聞かれると、自信満々に嘘をついちゃうことなんだ。それを解決するために、外部の知識を検索して持ってくるRAGっていう仕組みがあるんだけど……。
検索すればいいなら簡単じゃん!ググるみたいに!
それが難しいんだ。今のAIの検索(密検索)は、言葉の意味をベクトルっていう数字の羅列にして探すんだけど、珍しい言葉だとベクトルがうまく作れなくて、昔ながらのキーワード一致検索(BM25)に負けちゃうことが多いんだよ。
えー!最新のAIが昔の技術に負けちゃうの?それじゃあAIの立場がないじゃん!
そう。だからこの論文の『RPDR』は、AIに珍しい知識のクイズを自作させて、それで検索モデルを特訓しようっていう提案なんだ。でも、ただクイズを解かせるだけじゃダメなんだよ。
特訓なのに?スパルタじゃないとダメってこと?
逆だよ。質の高い、つまり『学習しやすいデータ』だけを選ぶのがコツなんだ。ここで『ラウンドトリップ予測』っていう面白い方法を使う。
ラウンドトリップ……往復旅行?AIが旅行に行くの?お土産は?
行かないよ。テキストを一度ベクトルにして、そこからまた元のテキストに戻せるか試すんだ。ちゃんと元通りに戻せたら、そのベクトルは言葉の特徴を正しく捉えてるって証拠だろ?
なるほど!「こんにちは」を暗号にして、また「こんにちは」に戻せたら、その暗号はバッチリってことね!
そう。そうやって厳選したデータで検索モデルを鍛えたら、マイナーな知識でも正確に検索できるようになったんだ。実験では、今まで勝てなかったBM25っていう手法にも圧勝したんだよ。
すごーい!AIの下克上だ!でも、どんな質問でも完璧なの?
いや、まだ課題はある。名前が似ているだけの複雑な言葉とかは苦手なんだ。だから、質問の内容を見て『これはRPDRが得意』『これはBM25が得意』って自動で振り分けるルーティングっていう仕組みも提案してる。
適材適所ってことだね!智也くんが解説担当で、私が盛り上げ担当みたいな!
……まあ、そんな感じかな。将来的には、もっと複雑な知識もこの方法で学習できるようになるはずだ。ただ、今はまだテキストベースだから、画像とか他のデータにも広げていく必要があるけどね。
よーし、私もラウンドトリップ予測で、今日の晩ごはんのメニューをベクトルにして、明日の朝には復元できるように特訓するね!
いや、それは普通にメモ帳に書けよ。
要点
- LLMは出現頻度の低い「ロングテール(稀な)」知識を正確に思い出すのが苦手で、嘘をつく(ハルシネーション)ことがある。
- 外部知識を検索して補完するRAGという手法があるが、従来のAIによる検索(密検索)は稀な単語のベクトル化が下手で、キーワード一致(BM25)に負けることが多かった。
- 提案手法のRPDRは、AIに稀な知識のクイズを大量に作らせ、その中から「学習しやすいデータ」を厳選して検索モデルを鍛え直すフレームワークである。
- データの厳選には「ラウンドトリップ予測」を使用する。これは、テキストをベクトルに変換した後、元のテキストを復元できるかどうかでデータの質を判定する仕組み。
- 実験の結果、RPDRは従来の検索手法を大きく上回り、さらに質問の内容に応じて検索手法を切り替える「ルーティング」を導入することで、より高い精度を達成した。