解説

AMI HAPPY

ねえ智也くん、この論文のタイトルが面白いね。「バリデーターを誰がバリデートするの? LLM支援評価のLLM出力を人間の好みに合わせる」って、どういう意味?

TOMOYA NEUTRAL

ああ、それはね、大規模言語モデル、略してLLMが生成する出力を評価する方法についての研究だよ。人間の評価は手間がかかるし、コードベースの評価には限界があるから、LLMを使って評価を助ける方法が増えているんだ。

AMI SURPRISED

え、でもそれって、評価するLLMも問題を抱えてるってこと?

TOMOYA NEUTRAL

正解。LLMで生成された評価者も同じ問題を持っているから、さらに人間による検証が必要になるんだ。だから私たちは、EvalGenというインターフェースを使って、LLM生成評価機能を人間の要件に合わせて調整する方法を提案している。

AMI CURIOUS

EvalGenってどんなことができるの?

TOMOYA NEUTRAL

EvalGenは、評価基準を生成したり、アサーションを実装する手助けを自動で行うんだ。そして、LLM出力の一部を人間が評価するようにして、そのフィードバックを使って、ユーザーの評価とより一致する実装を選ぶんだよ。

AMI CURIOUS

それって、どんな意味があるの?未来のアプリケーションにはどう影響するの?

TOMOYA NEUTRAL

この研究は、LLMの出力をより正確に評価する方法を提供することで、より信頼性の高いAIシステムの開発に寄与するよ。未来では、このようなシステムがより普及して、人間の作業を大幅に助けることになるだろうね。

AMI CURIOUS

へぇ、すごいね!でも、この研究にはどんな課題があるの?

TOMOYA NEUTRAL

一つの大きな課題は、評価基準のドリフトだね。つまり、評価するための基準が、評価する過程で変わってしまう可能性があるんだ。これは、評価の独立性を前提とするアプローチには問題を投げかけるよ。

AMI HAPPY

うわー、難しそう…でも、智也くんがいれば大丈夫かな!

TOMOYA NEUTRAL

ありがとう、亜美。でも、僕もまだ学ぶことがたくさんあるよ。

要点

大規模言語モデル(LLM)の出力を評価するために、人間の評価が困難であるため、LLMを使用して評価を支援する方法が増えています。

しかし、LLMで生成された評価者も同じ問題を抱えており、さらなる人間による検証が必要です。

私たちは、人間の要件に合わせてLLM生成評価機能(プロンプトやコードなど)を調整する「バリデーターのバリデーション」を行う混合イニシアティブアプローチを提案します。

私たちのインターフェース、EvalGenは、評価基準の生成とアサーションの実装を自動的に支援します。

EvalGenは、LLM出力のサブセットを人間が評価するように求め、そのフィードバックを使用してユーザーの評価とより一致する実装を選択します。

質的研究はEvalGenに全体的な支持を見出しましたが、調整の主観性と反復的なプロセスを強調しています。

特に、評価基準のドリフトという現象を特定しました。これは、出力を評価するために基準が必要ですが、出力を評価することでユーザーは基準を定義するのに役立ちます。

また、一部の基準は観察された特定のLLM出力に依存しているようであり、モデル出力の観察から評価の独立性を前提とするアプローチには深刻な疑問を投げかけます。

参考論文: http://arxiv.org/abs/2404.12272v1