解説ねえ、智也くん!この論文『…
解説
ねえねえ智也くん!この『Scaling Search Relevance』っていう論文、App Storeの話が書いてあるみたいだけど、これって何がすごいの?
ああ、それはAppleの研究チームが、App Storeの検索結果をより正確にするためにLLMをどう使ったかっていう論文だよ。亜美さんもApp Storeで検索して、全然関係ないアプリが出てきたことない?
あるある!『可愛い壁紙』って入れたのに、なぜか電卓アプリが出てきたりして『えっ?』ってなることあるよ。あれってどうしてなの?
それは検索エンジンが『行動関連性』を重視しすぎているからかもしれない。これは『みんながクリックしたから正解だろう』っていう指標なんだけど、それだけだと検索語と中身が本当に合ってるかどうかの『テキスト関連性』が疎かになりがちなんだ。
なるほどねー。じゃあ、その『テキスト関連性』をちゃんとチェックすればいいじゃない!
それが難しいんだよ。人間が一つずつチェックしてラベルを付けるのは、時間もお金もかかりすぎる。だから、この論文ではLLMを『先生』にして、人間に代わって数百万件ものラベルを自動で作らせたんだ。
数百万件!?人間だったら一生終わらないね……。でも、LLMってそんなに正確に判断できるの?
そこがこの論文の面白いポイントだね。彼らは300億パラメータもある巨大なモデルと、30億パラメータの小さなモデルを比較したんだ。普通は大きい方が賢いと思うだろ?
そりゃそうでしょ!大きい方が脳みそがいっぱい詰まってそうだし!
ところが、専門家の評価データを学習させて『微調整(ファインチューニング)』した30億の小型モデルの方が、巨大なモデルよりもずっと正確にラベルを付けられたんだよ。適材適所ってことだね。
へぇー!小さくても特訓すればエリートになれるんだ!それで、そのエリートLLMが作ったラベルを使ってどうしたの?
その大量のラベルを、実際の検索エンジンの学習データに混ぜたんだ。そうすることで、『パレート境界』を押し広げることができた。これは、何かを良くしようとすると別の何かが悪くなるっていう限界点のことだけど、今回は行動関連性もテキスト関連性も両方同時にレベルアップできたんだよ。
パレート……?パスタの種類かな?でも、とにかく全部良くなったってことだね!実験の結果はどうだったの?
オフラインの評価では、NDCGっていう『検索結果の並び順の良さ』を表すスコアがしっかり上がった。さらに、世界中のユーザーを対象にしたA/Bテストでも、アプリのダウンロード率が0.24%向上したんだ。0.24%って小さく見えるけど、App Storeの規模だとものすごい数だよ。
すごーい!特にどんな検索で効果があったの?
『テイルクエリ』だね。これは、たまにしか検索されない珍しい言葉のことだ。データが少ないから今までは精度が低かったんだけど、LLMが意味を理解してラベルを付けてくれたおかげで、珍しい検索でも正しいアプリが出るようになったんだ。
テイルクエリ……尻尾みたいな検索?面白いね!これからはもっと検索が便利になるのかな?
そうだね。今後はもっと多言語に広げたり、さらに高度なモデルを使うことで、もっと精度が上がるはずだ。ただ、LLMの判断が常に正しいわけじゃないし、計算コストの問題もあるから、そこが今後の課題かな。
よし!私の頭の中の検索エンジンも、LLMで微調整して『今日の晩ごはん』をすぐに見つけられるようにしてよ!
亜美さんの場合は、学習データが『お菓子』に偏りすぎてて、何を入れてもケーキしか出てこないエラーになりそうだけどな。
要点
- App Storeの検索精度を向上させるため、ユーザーのクリック等の「行動関連性」と、検索語とアプリの内容が一致しているかの「テキスト関連性」の両方を最適化する手法を提案している。
- 専門家によるテキスト関連性の評価ラベルは作成コストが高く不足しているため、LLMを評価者(LLM-as-a-Judge)として活用し、数百万件の高品質なラベルを自動生成した。
- 300億パラメータの巨大な事前学習済みモデルよりも、30億パラメータの小型モデルを専門家の評価データで微調整(ファインチューニング)した方が、圧倒的に高い精度でラベルを生成できることを示した。
- 生成した大量のラベルを学習に加えることで、オフライン評価のNDCGスコアが向上し、実際のA/Bテストでもコンバージョン率が0.24%向上した。特に検索頻度が低い「テイルクエリ」で大きな効果が見られた。