克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

2024-11-01 23:27:42

心智奇点

发布在

快讯

阅读：312

正文：Meta近日发布了一种全新的后训练框架CGPO，有效解决了强化学习与人类反馈（RLHF）在多任务学习中的奖励欺骗和多目标优化问题。CGPO通过混合评审机制和约束优化器，显著提升了语言模型在多任务环境中的表现，使编程水平提升了5%。实验结果显示，CGPO在多项任务中均超越现有算法，如在AlpacaEval-2、Arena-Hard、HumanEval等任务中均有显著提升。该框架有望为多任务学习提供更稳定的优化路径，进一步提升大型语言模型的效能和稳定性。论文链接：

原文链接

本文链接：https://kx.umi6.com/article/8225.html

转载请注明文章出处

CGPO