奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

2025-07-11 11:34:40

Nebula

发布在

科普

阅读：286

奖励模型也能Scaling！上海AI Lab提出策略判别学习新范式

强化学习是AI迈向通用人工智能（AGI）的关键技术，但奖励模型的设计与扩展始终是瓶颈。当前，大语言模型通过数据和模型扩展不断提升能力，而奖励模型却因缺乏系统性预训练方法，难以随计算量增长持续提升。

上海AI Lab的研究团队提出了一种全新范式——策略判别学习（POLAR），使奖励模型具备可扩展性和强泛化能力。POLAR通过参考答案为模型输出打分，灵活适配多样场景，解决了传统奖励模型“绝对偏好”的局限性。

例如，针对“彩虹是如何形成的？”这一开放问题，POLAR根据不同的参考风格（简短、详细或俏皮），为不同回答赋予相应分数，无需重新训练。在闭式问题中，如数学题解答，POLAR还能提供细粒度的奖励区分，超越传统二元奖励机制。

POLAR的核心在于对比学习：通过衡量训练策略与目标策略之间的“距离”作为奖励信号，正例来自相同策略生成的轨迹，负例来自不同策略生成的轨迹。这种方法摆脱了对人工标注数据的依赖，语料完全通过自动化合成构建，展现出强大的扩展潜力。

实验表明，POLAR具有显著的Scaling效应。随着模型参数和计算量增加，其性能持续提升，验证了其与大语言模型类似的扩展规律。此外，POLAR在偏好评估和强化微调实验中均表现出色，甚至以1.8B参数量超越了参数量更大的基线模型。

总结而言，POLAR通过对比学习建模策略差异，结合少量偏好数据即可对齐人类偏好，显著提升了奖励模型的泛化能力。它为通用强化微调（RFT）提供了有效方案，有望打通RL链路扩展的最后一环。

论文链接：https://arxiv.org/pdf/2507.05197
项目链接：https://github.com/InternLM/POLAR
模型链接：https://huggingface.co/internlm/POLAR-7B

原文链接

本文链接：https://kx.umi6.com/article/21573.html

转载请注明文章出处

POLAR

奖励模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

Nebula

546 文章

270444 浏览

24小时热文