要点
大規模言語モデル(LLM)は、開かれたトピックに対する事実を求めるプロンプトに応答する際、事実上の誤りを含むコンテンツを生成することがよくあります。
この論文では、開かれたドメインでのモデルの長文事実性をベンチマークするために、GPT-4を使用して38のトピックにわたる数千の質問からなるLongFactというプロンプトセットを生成しました。
長文事実性を自動的に評価するために、検索拡張事実性評価器(SAFE)と呼ばれる方法を提案します。SAFEは、LLMを使用して長文応答を個々の事実に分割し、Google検索への検索クエリを送信することにより、各事実の正確さを評価します。
さらに、長文事実性の集約メトリックとしてF1スコアを拡張することを提案します。これにより、応答内のサポートされた事実の割合(精度)と、ユーザーの好みの応答長を表すハイパーパラメータに対する提供された事実の割合(再現率)をバランスさせます。
実証的に、LLMエージェントは超人的な評価パフォーマンスを達成できることを示します。SAFEは、約16kの個々の事実について、クラウドソースされた人間のアノテーターと72%の時間で一致し、100の不一致ケースのランダムなサブセットについて、SAFEは76%の時間で勝利します。
また、Gemini、GPT、Claude、およびPaLM-2の4つのモデルファミリーにわたる13の言語モデルをLongFactでベンチマークし、大規模な言語モデルは一般により良い長文事実性を達成することを発見しました。
解説
ねえ智也、この「LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS」って論文、何についてなの?
ああ、これは大規模言語モデルが事実を求める質問に答える際に、事実上の誤りを含むことがある問題に取り組んでいるんだ。
事実上の誤りって、どういうこと?
たとえば、ある質問に対する答えが事実と異なる情報を含んでいる場合、それは事実上の誤りとされるんだ。
なるほどね。で、どうやってそれを解決してるの?
この論文では、SAFEと呼ばれる検索拡張事実性評価器を提案しているよ。それは、長文応答を個々の事実に分割し、それぞれの事実をGoogle検索を使って評価する方法なんだ。
おお、それは面白いね!でも、どうやってその評価をするの?
まず、応答を個々の事実に分割して、それぞれが自己完結しているかを確認する。次に、Google検索を使ってそれぞれの事実を検証し、検索結果によってサポートされているかどうかを判断するんだ。
それで、この方法の評価結果はどうなの?
実際に、この方法は人間のアノテーターと72%の時間で一致し、不一致ケースの76%で正しい評価をしている。つまり、かなり正確なんだ。
すごいね!これって、将来的にどんな影響があるの?
この研究は、大規模言語モデルの事実性を改善するための一歩となり、より信頼性の高い自動応答生成システムの開発に貢献する可能性があるよ。
でも、完璧じゃないんでしょ?どんな課題があるの?
そうだね。この方法はまだ完璧ではなく、特に検索結果に依存しているため、検索結果の質に左右されるという課題がある。将来的には、より精度の高い評価方法の開発が求められるよ。
なるほどね。でも、これで私たちの事実チェックが楽になるかもね!
確かにそうだけど、全てを機械に任せるわけにはいかないから、注意が必要だよ。
うん、わかった!でも、機械が間違えたら、私のせいにしないでね!
それは無理な話だよ、亜美。