解説ねえ、トモヤくん!『RAG…
解説
ねえねえ智也くん!『Is Agentic RAG worth it?』っていう論文を見つけたんだけど、これって「エージェント風のRAGは価値があるのか?」ってこと?
そうだね。最近、AIに自分で考えて検索の手順を決めさせる『Agentic RAG』が流行ってるんだけど、それが本当に従来のやり方より優れているのかを実験で確かめた論文だよ。
えっ、AIが自分で考えるの? 今までのRAGは考えなかったの?
今までの『Naïve RAG(素のRAG)』は、質問されたらとりあえず検索して、出てきた結果を元に回答するっていう一本道だったんだ。でも、それだと関係ない情報を拾ったり、そもそも検索しなくていい質問まで検索しちゃうっていう弱点があったんだよ。
あー、お腹空いたって言ってるのに「お腹の構造」について検索しちゃうみたいな感じ?
……まあ、極端に言えばね。それを解決するために、決まった追加パーツを組み込む『Enhanced RAG』と、LLMを司令塔にして「次はこれをしよう」って判断させる『Agentic RAG』のどっちがいいかを比べてるんだ。
追加パーツってどんなの? 改造人間みたいな感じ?
改造っていうか、専用の道具だね。例えば、検索が必要か判断する『セマンティックルーター』とか、質問を検索しやすい形に書き換える『HyDE(ハイド)』、検索結果を並び替える『リランカー』とか。Enhanced RAGはこれらをベルトコンベアみたいに固定の順番で動かすんだ。
なるほど! じゃあAgentic RAGの方は?
Agentic RAGは、LLMが「この質問は書き換えが必要だな」とか「検索結果が微妙だからもう一回検索しよう」って、その場でループしたり手順を変えたりする。自由度が高いのが特徴だね。
自由な方がすごそうだけど、実験結果はどうだったの?
面白い結果が出てるよ。ユーザーの意図を汲み取るのはAgentic RAGが得意だけど、特定のデータセットではEnhanced RAGの方が精度が高いこともあった。特に、Agentic RAGは何度もLLMを動かすから、コストが高くなるし時間もかかるんだ。
えー! 自由な分、お金と時間がかかっちゃうんだ。コスパが大事だもんね。
その通り。論文では、NDCGっていう検索の質を測る指標を使って評価してるんだけど、Agentic RAGが常に勝つわけじゃない。LLMの性能が低いと、Agentic RAGは判断を間違えて迷走しちゃうこともあるしね。
迷走するAI……ちょっと可愛いかも。でも、これからはどっちが主流になるのかな?
複雑な推論が必要なときはAgentic、決まった形式で素早く答えたいときはEnhancedっていう使い分けが進むだろうね。将来的には、もっと賢くて効率的なエージェントの設計が研究されるはずだよ。
課題はやっぱり「賢さ」と「お金」なんだね。私も智也くんをエージェントにして、代わりに宿題やってもらおうかな!
僕はRAGのシステムじゃないし、君の宿題を代行するコストはめちゃくちゃ高いよ。自分でやりなさい。
要点
- 従来のRAG(Naïve RAG)には、不要な検索の実行や検索精度の低さといった課題がある。
- これらの課題に対し、固定の処理を追加する『Enhanced RAG』と、LLMが自律的に手順を決める『Agentic RAG』の2つのアプローチを比較している。
- 評価軸は『ユーザーの意図把握』『クエリの書き換え』『検索結果の調整』『LLMの性能の影響』の4点。
- Agentic RAGは柔軟性が高いが、コストや実行時間の面でデメリットがあり、特定のタスクではEnhanced RAGの方が効率的である場合も多い。
- 実用的なシステム構築において、コストと性能のトレードオフを考慮した設計指針を提示している。