1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B奖励模型搞定多学科,大模型强化学习不再局限于数学和代码

一个7B奖励模型搞定全学科,大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码,因其数据结构化程度高,奖励函数易设计。然而,对于医学、化学、法律等非结构化领域,如何提升大模型能力成为关键。

腾讯与苏州大学团队提出新框架RLVR,通过基于生成模型的软奖励,显著提升了泛化性、稳健性和可扩展性。该框架无需针对每个领域训练大规模奖励模型,而是利用现成的大语言模型作为验证器。同时,引入基于模型的软奖励,相比传统的二元硬标签更具灵活性。

研究基于“大模型判断高度一致”的发现,使用72B参数的Qwen2.5-Instruct蒸馏出7B的奖励模型,训练过程无需领域特定标注,仅依赖在线探索阶段采集的数据。实验采用6000个跨学科问题,结果显示RM-7B在自由形式答案任务中表现优异,且在多学科复杂判断中优于二元奖励。

此外,基于模型的奖励在数据量增加时展现出更好的可扩展性。尽管未使用思维链推理,但其在评估语义等价性上的必要性仍需研究。同时,在无直接监督的情况下,如何合理分配奖励也是未来方向。

论文开源了奖励模型及多学科数据集,为后续研究提供支持。这一成果表明,强化学习有望扩展至更多领域,而无需依赖传统规则或复杂的推理链。

原文链接
本文链接:https://kx.umi6.com/article/16647.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
24小时热文
更多
扫一扫体验小程序