1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式

强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。

上海AI Lab的研究团队提出了一种全新范式——策略判别学习(POLAR),使奖励模型具备可扩展性和强泛化能力。POLAR通过参考答案为模型输出打分,灵活适配多样场景,解决了传统奖励模型“绝对偏好”的局限性。

例如,针对“彩虹是如何形成的?”这一开放问题,POLAR根据不同的参考风格(简短、详细或俏皮),为不同回答赋予相应分数,无需重新训练。在闭式问题中,如数学题解答,POLAR还能提供细粒度的奖励区分,超越传统二元奖励机制。

POLAR的核心在于对比学习:通过衡量训练策略与目标策略之间的“距离”作为奖励信号,正例来自相同策略生成的轨迹,负例来自不同策略生成的轨迹。这种方法摆脱了对人工标注数据的依赖,语料完全通过自动化合成构建,展现出强大的扩展潜力。

实验表明,POLAR具有显著的Scaling效应。随着模型参数和计算量增加,其性能持续提升,验证了其与大语言模型类似的扩展规律。此外,POLAR在偏好评估和强化微调实验中均表现出色,甚至以1.8B参数量超越了参数量更大的基线模型。

总结而言,POLAR通过对比学习建模策略差异,结合少量偏好数据即可对齐人类偏好,显著提升了奖励模型的泛化能力。它为通用强化微调(RFT)提供了有效方案,有望打通RL链路扩展的最后一环。

论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B

原文链接
本文链接:https://kx.umi6.com/article/21573.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
2025-05-13 16:54:31
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
2025-04-05 13:05:43
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
又一篇“苦涩的教训”,让AI觉得人间有不值,发现无穷尽
2025-04-22 08:10:09
24小时热文
更多
扫一扫体验小程序