1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B奖励模型搞定多学科,大模型强化学习不再局限于数学和代码

一个7B奖励模型搞定全学科,大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码,因其数据结构化程度高,奖励函数易设计。然而,对于医学、化学、法律等非结构化领域,如何提升大模型能力成为关键。

腾讯与苏州大学团队提出新框架RLVR,通过基于生成模型的软奖励,显著提升了泛化性、稳健性和可扩展性。该框架无需针对每个领域训练大规模奖励模型,而是利用现成的大语言模型作为验证器。同时,引入基于模型的软奖励,相比传统的二元硬标签更具灵活性。

研究基于“大模型判断高度一致”的发现,使用72B参数的Qwen2.5-Instruct蒸馏出7B的奖励模型,训练过程无需领域特定标注,仅依赖在线探索阶段采集的数据。实验采用6000个跨学科问题,结果显示RM-7B在自由形式答案任务中表现优异,且在多学科复杂判断中优于二元奖励。

此外,基于模型的奖励在数据量增加时展现出更好的可扩展性。尽管未使用思维链推理,但其在评估语义等价性上的必要性仍需研究。同时,在无直接监督的情况下,如何合理分配奖励也是未来方向。

论文开源了奖励模型及多学科数据集,为后续研究提供支持。这一成果表明,强化学习有望扩展至更多领域,而无需依赖传统规则或复杂的推理链。

原文链接
本文链接:https://kx.umi6.com/article/16647.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
24小时热文
更多
扫一扫体验小程序