1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:Meta近日发布了一种全新的后训练框架CGPO,有效解决了强化学习与人类反馈(RLHF)在多任务学习中的奖励欺骗和多目标优化问题。CGPO通过混合评审机制和约束优化器,显著提升了语言模型在多任务环境中的表现,使编程水平提升了5%。实验结果显示,CGPO在多项任务中均超越现有算法,如在AlpacaEval-2、Arena-Hard、HumanEval等任务中均有显著提升。该框架有望为多任务学习提供更稳定的优化路径,进一步提升大型语言模型的效能和稳定性。论文链接:

原文链接
本文链接:https://kx.umi6.com/article/8225.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI将启动5000万美元基金 支持非营利组织和社区组织
2025-07-19 07:49:30
工信部:上半年数字产业完成业务收入同比增长9.3% 增速较上年同期提高3.4个百分点
2025-07-18 15:42:40
消息称 Meta 超级智能实验室已招募 44 人:一半来自中国,40% 曾在 OpenAI 任职
2025-07-20 17:06:49
24小时热文
更多
扫一扫体验小程序