4月 17 2024 0 AIのアラインメント手法の比較:DPO対PPO 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル見て興味が湧いたんだけど、「Is DPO Superior to PPO for LLM Alignment?」って、何のこと? ああ、それはね、大規模言語モデルを人間の好みに合わせ…