モデルをマージして安全性を高める!

投稿者: ユウ

解説 ねえ、智也くん!『データを混ぜるか、モデルをマージするか?多様なマルチタスク学習の最適化』っていう論文、面白そうだね!内容教えて! ああ、それは面白いテーマだよ。大規模言語モデルは多くのタスクに使われているけど、安…

AIの未来を変える!新しい強化学習の手法とは?

投稿者: ユウ

解説 ねえ、智也くん!『完璧なブレンド:Mixture of JudgesでRLHFを再定義する』っていう論文、面白そうだね!内容教えて! ああ、それは面白い論文だよ。人間のフィードバックからの強化学習、つまりRLHFが…