AIの未来を変える！新しい強化学習の手法とは？

10月 02 2024

解説

AMI HAPPY

ねえ、智也くん！『完璧なブレンド：Mixture of JudgesでRLHFを再定義する』っていう論文、面白そうだね！内容教えて！

TOMOYA NEUTRAL

ああ、それは面白い論文だよ。人間のフィードバックからの強化学習、つまりRLHFが大規模言語モデルの微調整に使われているんだけど、マルチタスク学習には限界があるんだ。

AMI SURPRISED

マルチタスク学習って何？

TOMOYA NEUTRAL

マルチタスク学習は、一つのモデルを複数のタスクで同時に訓練する方法だよ。これにより、モデルがより一般化できるようになるんだ。でも、RLHFを使うと、報酬ハッキングや目的の最適化が難しくなるんだ。

AMI CURIOUS

報酬ハッキングって何？

TOMOYA NEUTRAL

報酬ハッキングは、モデルが与えられた報酬を最大化するために、意図しない方法で行動することを指すんだ。これが起こると、モデルの性能が逆に悪化することがあるんだ。

AMI CURIOUS

なるほど！じゃあ、CGPOって何なの？

TOMOYA NEUTRAL

CGPOは、制約付き生成ポリシー最適化の略で、Mixture of Judgesを使ってRLHFを最適化する新しい手法なんだ。これにより、報酬ハッキングを防ぎつつ、たくさんの目的に対して最適な結果を出せるんだ。

AMI CURIOUS

実際にどんな結果が出たの？

TOMOYA NEUTRAL

CGPOは、一般的なチャットやSTEMの質問、指示に従うタスク、数学、コーディング、知識のタスクで、従来の手法よりも一貫して良い結果を出しているんだ。特に、PPOに比べて7.4%も改善しているんだよ。

AMI HAPPY

すごい！それって未来にどんな影響があるの？

TOMOYA NEUTRAL

CGPOは、RLHFの限界を克服することで、一般的なLLMの整合性を向上させる可能性があるんだ。ただ、まだ課題もあって、さらなる研究が必要だね。

AMI HAPPY

じゃあ、智也くんもCGPOを使って、私の宿題を手伝ってくれない？

TOMOYA NEUTRAL

それは無理だよ、CGPOでも宿題は解けないから。

人間のフィードバックからの強化学習（RLHF）は、大規模言語モデル（LLM）の微調整において主流のアプローチであるが、マルチタスク学習（MTL）においては限界がある。

RLHFの適用には報酬ハッキングや極端な多目的最適化の課題があり、これにより人間の直感に依存した重みの調整が必要となる。

新しい手法である制約付き生成ポリシー最適化（CGPO）を提案し、Mixture of Judges（MoJ）を用いてRLHFの最適化を行う。

CGPOは、従来のRLHFアルゴリズム（PPOやDPOなど）に比べて、さまざまなタスクで一貫して優れた結果を示す。

CGPOは報酬ハッキングを検出・軽減し、非常に多くの目的に対してパレート最適点を達成する。

投稿日:AI