ねえ智也くん、この論文のタイト…
解説

ねえ智也くん、この論文のタイトル「大規模言語モデルを使って関連性判断の穴を埋めることはできるか?」って面白そう!何について書かれてるの?

ああ、これはテストコレクションにおける未評価のドキュメントを埋めるために大規模言語モデルを使う方法についての研究だよ。特に会話型検索の文脈でね。

会話型検索って何?

会話型検索は、ユーザーが会話を通じて情報を検索する形式のことだよ。例えば、質問に答える形で情報が提供されるような場合がそれにあたるね。

へえ、それで、どんな結果が出たの?

研究では、LLMを使った自動評価が人間の評価と高い相関を示すことがわかったけど、人間と自動の評価を組み合わせると相関は低くなるんだ。

それはどうして?

自動評価は一貫性が欠ける場合があるからだね。特に、新しいシステムが評価されるときに不利になることがあるよ。

じゃあ、将来的にはどうすればいいの?

LLMをもっと人間の評価に近づけるために、プロンプトエンジニアリングやファインチューニングが必要になるだろうね。

なるほどね〜、でも私には難しそう…。智也くん、私の穴、埋めてくれる?

それは…勉強の話だよね?
要点
テストコレクションの未評価のドキュメント(穴)を埋めるために、大規模言語モデル(LLM)を使用する初期の試みについて説明しています。
会話型検索の文脈で、情報ニーズが非常に動的であり、結果のバリエーションが多いため、より大きな穴が生じています。
LLMを使用した自動評価は、人間の評価と高い相関を示すことが以前の研究で示されていますが、人間と自動の評価を組み合わせると相関は大幅に低下します。
使用するLLMによって、新しいランが非常に好まれたり、ペナルティを受けたりすることがあり、この効果は穴の大きさに比例して増幅されます。
一貫したランキングを得るためには、ドキュメントプール全体にLLMアノテーションを生成する必要があります。
将来的には、LLMを人間のアノテーションを反映し、整合させるために、プロンプトエンジニアリングとファインチューニングが必要です。