解説

AMI HAPPY

ねえねえ智也くん!この『SAGE』っていう論文、タイトルが賢そうで気になるんだけど、どんな内容なの?セージってお料理に使うハーブのこと?

TOMOYA NEUTRAL

ハーブじゃなくて、賢者を意味する『Sage』と、科学的なエージェントの評価を掛け合わせた名前だよ。これは「ディープリサーチエージェント」っていう、自分でネットや論文を調べて答えを出すAIの能力を測るための研究なんだ。

AMI SURPRISED

ディープリサーチエージェント……なんだかスパイ映画に出てくる凄腕の調査員みたいでかっこいいね!

TOMOYA NEUTRAL

まあ、役割としては近いかな。でも、今のAI調査員には大きな弱点があることがわかったんだ。特に、たくさんの論文の中から特定の情報を探し出して、それらを組み合わせて考えるのが苦手なんだよ。

AMI SURPRISED

えっ、AIって物知りなんじゃないの?検索なんてお手の物だと思ってた!

TOMOYA NEUTRAL

それが意外とそうでもないんだ。この論文では20万本の論文データを使ってテストしたんだけど、最新のAI検索技術を使うよりも、昔からある「BM25」っていう単語の一致を見るだけの単純な検索手法の方が30%も成績が良かったんだよ。

AMI SURPRISED

ええーっ!最新のハイテク技術が、昔ながらのやり方に負けちゃうの?どうして?

TOMOYA NEUTRAL

いい質問だね。理由は、AIエージェントが検索するときに「キーワード」を並べて検索する癖があるからなんだ。最新の検索器は文章の意味を捉えようとするんだけど、AIがキーワードばかり投げるから、かみ合わなくなっちゃうんだよ。

AMI HAPPY

なるほど、AIも意外と「単語でググる」みたいな庶民的な検索をしてるんだね。親近感わいちゃう!

TOMOYA NEUTRAL

親近感を持ってる場合じゃないよ。そこでこの論文では、新しい解決策を提案しているんだ。それが「コーパスレベル・テスト時スケーリング」っていう手法だ。

AMI SURPRISED

こーぱす……?また難しそうな言葉が出てきた!

TOMOYA NEUTRAL

コーパスは検索対象になるデータの集まりのこと。この手法は、検索される側の論文データに、あらかじめAIを使って「この論文のキーワードはこれだよ」とか「こんな内容だよ」っていうメタデータを付け足しておくんだ。

AMI HAPPY

あ、それって、本に付箋を貼って探しやすくしておくみたいな感じ?

TOMOYA NEUTRAL

そう、そのイメージで合ってる。論文そのものにAIが理解しやすい「目印」をたくさん付けておくことで、AIエージェントがキーワード検索をしたときに見つけやすくしてあげるんだ。これで精度が最大8%も上がったんだよ。

AMI HAPPY

すごい!ちょっとした工夫でAIがもっと賢くなるんだね。これがあれば、将来はAIが勝手に新しい大発見をしてくれるようになるのかな?

TOMOYA NEUTRAL

その可能性はあるね。科学の発展を加速させる大きな一歩になるはずだ。ただ、まだ課題もあって、論文にメタデータを付けるのにコストがかかるし、もっと複雑な推論にはまだ限界があるんだ。

AMI HAPPY

ふむふむ、AIもまだまだ修行中なんだね。よし、私も自分に「天才女子大生」っていうメタデータを付けておこうかな!そうすれば智也くんも私をすぐ見つけられるでしょ?

TOMOYA NEUTRAL

……君の場合はメタデータを付ける前に、その天然な性格をどうにかするアルゴリズムを開発したほうがいいと思うよ。

要点

  • 複雑な調査を自動で行う「ディープリサーチエージェント」の性能を測定するための新しいベンチマーク「SAGE」を開発した。
  • 最新のAIエージェントでも、複数の論文の内容を組み合わせて推論するような高度な検索には苦戦することが明らかになった。
  • 驚くべきことに、最新のLLMベースの検索技術よりも、昔ながらのキーワード検索(BM25)の方が30%も精度が高かった。これはAIが検索時にキーワードを重視する傾向があるためである。
  • 解決策として、検索対象の論文データにあらかじめAIでキーワードやメタデータを追加しておく「コーパスレベル・テスト時スケーリング」という手法を提案した。
  • この手法により、短文の質問で8%、自由形式の質問で2%の精度向上を達成し、AIエージェントの調査能力を底上げできることを示した。