1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式

强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。

上海AI Lab的研究团队提出了一种全新范式——策略判别学习(POLAR),使奖励模型具备可扩展性和强泛化能力。POLAR通过参考答案为模型输出打分,灵活适配多样场景,解决了传统奖励模型“绝对偏好”的局限性。

例如,针对“彩虹是如何形成的?”这一开放问题,POLAR根据不同的参考风格(简短、详细或俏皮),为不同回答赋予相应分数,无需重新训练。在闭式问题中,如数学题解答,POLAR还能提供细粒度的奖励区分,超越传统二元奖励机制。

POLAR的核心在于对比学习:通过衡量训练策略与目标策略之间的“距离”作为奖励信号,正例来自相同策略生成的轨迹,负例来自不同策略生成的轨迹。这种方法摆脱了对人工标注数据的依赖,语料完全通过自动化合成构建,展现出强大的扩展潜力。

实验表明,POLAR具有显著的Scaling效应。随着模型参数和计算量增加,其性能持续提升,验证了其与大语言模型类似的扩展规律。此外,POLAR在偏好评估和强化微调实验中均表现出色,甚至以1.8B参数量超越了参数量更大的基线模型。

总结而言,POLAR通过对比学习建模策略差异,结合少量偏好数据即可对齐人类偏好,显著提升了奖励模型的泛化能力。它为通用强化微调(RFT)提供了有效方案,有望打通RL链路扩展的最后一环。

论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B

原文链接
本文链接:https://kx.umi6.com/article/21573.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI考虑调整公司架构 以提高对投资者的吸引力
2024-08-31 03:28:37
“国内首款破局性 AI 开发工具”,中国电信发布星辰软件工厂:产品文档生成代码
2024-07-09 13:01:03
Ilya Sutskever创业,新公司的一切都与OpenAI反着来
2024-06-20 13:33:17
24小时热文
更多
扫一扫体验小程序