1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式

强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。

上海AI Lab的研究团队提出了一种全新范式——策略判别学习(POLAR),使奖励模型具备可扩展性和强泛化能力。POLAR通过参考答案为模型输出打分,灵活适配多样场景,解决了传统奖励模型“绝对偏好”的局限性。

例如,针对“彩虹是如何形成的?”这一开放问题,POLAR根据不同的参考风格(简短、详细或俏皮),为不同回答赋予相应分数,无需重新训练。在闭式问题中,如数学题解答,POLAR还能提供细粒度的奖励区分,超越传统二元奖励机制。

POLAR的核心在于对比学习:通过衡量训练策略与目标策略之间的“距离”作为奖励信号,正例来自相同策略生成的轨迹,负例来自不同策略生成的轨迹。这种方法摆脱了对人工标注数据的依赖,语料完全通过自动化合成构建,展现出强大的扩展潜力。

实验表明,POLAR具有显著的Scaling效应。随着模型参数和计算量增加,其性能持续提升,验证了其与大语言模型类似的扩展规律。此外,POLAR在偏好评估和强化微调实验中均表现出色,甚至以1.8B参数量超越了参数量更大的基线模型。

总结而言,POLAR通过对比学习建模策略差异,结合少量偏好数据即可对齐人类偏好,显著提升了奖励模型的泛化能力。它为通用强化微调(RFT)提供了有效方案,有望打通RL链路扩展的最后一环。

论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B

原文链接
本文链接:https://kx.umi6.com/article/21573.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
2025-05-13 16:54:31
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
24小时热文
更多
扫一扫体验小程序