要点

大規模言語モデル(LLM)は、開かれたトピックに対する事実を求めるプロンプトに応答する際、事実上の誤りを含むコンテンツを生成することがよくあります。

この論文では、開かれたドメインでのモデルの長文事実性をベンチマークするために、GPT-4を使用して38のトピックにわたる数千の質問からなるLongFactというプロンプトセットを生成しました。

長文事実性を自動的に評価するために、検索拡張事実性評価器(SAFE)と呼ばれる方法を提案します。SAFEは、LLMを使用して長文応答を個々の事実に分割し、Google検索への検索クエリを送信することにより、各事実の正確さを評価します。

さらに、長文事実性の集約メトリックとしてF1スコアを拡張することを提案します。これにより、応答内のサポートされた事実の割合(精度)と、ユーザーの好みの応答長を表すハイパーパラメータに対する提供された事実の割合(再現率)をバランスさせます。

実証的に、LLMエージェントは超人的な評価パフォーマンスを達成できることを示します。SAFEは、約16kの個々の事実について、クラウドソースされた人間のアノテーターと72%の時間で一致し、100の不一致ケースのランダムなサブセットについて、SAFEは76%の時間で勝利します。

また、Gemini、GPT、Claude、およびPaLM-2の4つのモデルファミリーにわたる13の言語モデルをLongFactでベンチマークし、大規模な言語モデルは一般により良い長文事実性を達成することを発見しました。

解説

AMI

ねえ智也、この「LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS」って論文、何についてなの?

TOMOYA

ああ、これは大規模言語モデルが事実を求める質問に答える際に、事実上の誤りを含むことがある問題に取り組んでいるんだ。

AMI

事実上の誤りって、どういうこと?

TOMOYA

たとえば、ある質問に対する答えが事実と異なる情報を含んでいる場合、それは事実上の誤りとされるんだ。

AMI

なるほどね。で、どうやってそれを解決してるの?

TOMOYA

この論文では、SAFEと呼ばれる検索拡張事実性評価器を提案しているよ。それは、長文応答を個々の事実に分割し、それぞれの事実をGoogle検索を使って評価する方法なんだ。

AMI

おお、それは面白いね!でも、どうやってその評価をするの?

TOMOYA

まず、応答を個々の事実に分割して、それぞれが自己完結しているかを確認する。次に、Google検索を使ってそれぞれの事実を検証し、検索結果によってサポートされているかどうかを判断するんだ。

AMI

それで、この方法の評価結果はどうなの?

TOMOYA

実際に、この方法は人間のアノテーターと72%の時間で一致し、不一致ケースの76%で正しい評価をしている。つまり、かなり正確なんだ。

AMI

すごいね!これって、将来的にどんな影響があるの?

TOMOYA

この研究は、大規模言語モデルの事実性を改善するための一歩となり、より信頼性の高い自動応答生成システムの開発に貢献する可能性があるよ。

AMI

でも、完璧じゃないんでしょ?どんな課題があるの?

TOMOYA

そうだね。この方法はまだ完璧ではなく、特に検索結果に依存しているため、検索結果の質に左右されるという課題がある。将来的には、より精度の高い評価方法の開発が求められるよ。

AMI

なるほどね。でも、これで私たちの事実チェックが楽になるかもね!

TOMOYA

確かにそうだけど、全てを機械に任せるわけにはいかないから、注意が必要だよ。

AMI

うん、わかった!でも、機械が間違えたら、私のせいにしないでね!

TOMOYA

それは無理な話だよ、亜美。

参考論文: http://arxiv.org/abs/2403.18802v1