标题:7B奖励模型搞定多学科,大模型强化学习不再局限于数学和代码
一个7B奖励模型搞定全学科,大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码,因其数据结构化程度高,奖励函数易设计。然而,对于医学、化学、法律等非结构化领域,如何提升大模型能力成为关键。
腾讯与苏州大学团队提出新框架RLVR,通过基于生成模型的软奖励,显著提升了泛化性、稳健性和可扩展性。该框架无需针对每个领域训练大规模奖励模型,而是利用现成的大语言模型作为验证器。同时,引入基于模型的软奖励,相比传统的二元硬标签更具灵活性。
研究基于“大模型判断高度一致”的发现,使用72B参数的Qwen2.5-Instruct蒸馏出7B的奖励模型,训练过程无需领域特定标注,仅依赖在线探索阶段采集的数据。实验采用6000个跨学科问题,结果显示RM-7B在自由形式答案任务中表现优异,且在多学科复杂判断中优于二元奖励。
此外,基于模型的奖励在数据量增加时展现出更好的可扩展性。尽管未使用思维链推理,但其在评估语义等价性上的必要性仍需研究。同时,在无直接监督的情况下,如何合理分配奖励也是未来方向。
论文开源了奖励模型及多学科数据集,为后续研究提供支持。这一成果表明,强化学习有望扩展至更多领域,而无需依赖传统规则或复杂的推理链。
原文链接
本文链接:https://kx.umi6.com/article/16647.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
416 文章
69037 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13