7月 12 2024 0 ノイズに強いAIを目指して:Dr. DPOの挑戦 投稿者: ユウ 解説 智也くん、この論文のタイトルを見たんだけど、「Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Pr…
4月 17 2024 0 AIのアラインメント手法の比較:DPO対PPO 投稿者: ユウ 解説 ねえ智也くん、この論文のタイトル見て興味が湧いたんだけど、「Is DPO Superior to PPO for LLM Alignment?」って、何のこと? ああ、それはね、大規模言語モデルを人間の好みに合わせ…