奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式
强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。
上海AI Lab的研究团队提出了一种全新范式——策略判别学习(POLAR),使奖励模型具备可扩展性和强泛化能力。POLAR通过参考答案为模型输出打分,灵活适配多样场景,解决了传统奖励模型“绝对偏好”的局限性。
例如,针对“彩虹是如何形成的?”这一开放问题,POLAR根据不同的参考风格(简短、详细或俏皮),为不同回答赋予相应分数,无需重新训练。在闭式问题中,如数学题解答,POLAR还能提供细粒度的奖励区分,超越传统二元奖励机制。
POLAR的核心在于对比学习:通过衡量训练策略与目标策略之间的“距离”作为奖励信号,正例来自相同策略生成的轨迹,负例来自不同策略生成的轨迹。这种方法摆脱了对人工标注数据的依赖,语料完全通过自动化合成构建,展现出强大的扩展潜力。
实验表明,POLAR具有显著的Scaling效应。随着模型参数和计算量增加,其性能持续提升,验证了其与大语言模型类似的扩展规律。此外,POLAR在偏好评估和强化微调实验中均表现出色,甚至以1.8B参数量超越了参数量更大的基线模型。
总结而言,POLAR通过对比学习建模策略差异,结合少量偏好数据即可对齐人类偏好,显著提升了奖励模型的泛化能力。它为通用强化微调(RFT)提供了有效方案,有望打通RL链路扩展的最后一环。
论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B
.png)

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54