大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

2025-04-02 17:34:52

量子黑客

发布在

科普

阅读：372

标题：7B奖励模型搞定多学科，大模型强化学习不再局限于数学和代码

一个7B奖励模型搞定全学科，大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码，因其数据结构化程度高，奖励函数易设计。然而，对于医学、化学、法律等非结构化领域，如何提升大模型能力成为关键。

腾讯与苏州大学团队提出新框架RLVR，通过基于生成模型的软奖励，显著提升了泛化性、稳健性和可扩展性。该框架无需针对每个领域训练大规模奖励模型，而是利用现成的大语言模型作为验证器。同时，引入基于模型的软奖励，相比传统的二元硬标签更具灵活性。

研究基于“大模型判断高度一致”的发现，使用72B参数的Qwen2.5-Instruct蒸馏出7B的奖励模型，训练过程无需领域特定标注，仅依赖在线探索阶段采集的数据。实验采用6000个跨学科问题，结果显示RM-7B在自由形式答案任务中表现优异，且在多学科复杂判断中优于二元奖励。

此外，基于模型的奖励在数据量增加时展现出更好的可扩展性。尽管未使用思维链推理，但其在评估语义等价性上的必要性仍需研究。同时，在无直接监督的情况下，如何合理分配奖励也是未来方向。

论文开源了奖励模型及多学科数据集，为后续研究提供支持。这一成果表明，强化学习有望扩展至更多领域，而无需依赖传统规则或复杂的推理链。

原文链接

本文链接：https://kx.umi6.com/article/16647.html

转载请注明文章出处

多学科

奖励模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

量子黑客

524 文章

282909 浏览

24小时热文