1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:7B奖励模型搞定多学科,大模型强化学习不再局限于数学和代码

一个7B奖励模型搞定全学科,大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码,因其数据结构化程度高,奖励函数易设计。然而,对于医学、化学、法律等非结构化领域,如何提升大模型能力成为关键。

腾讯与苏州大学团队提出新框架RLVR,通过基于生成模型的软奖励,显著提升了泛化性、稳健性和可扩展性。该框架无需针对每个领域训练大规模奖励模型,而是利用现成的大语言模型作为验证器。同时,引入基于模型的软奖励,相比传统的二元硬标签更具灵活性。

研究基于“大模型判断高度一致”的发现,使用72B参数的Qwen2.5-Instruct蒸馏出7B的奖励模型,训练过程无需领域特定标注,仅依赖在线探索阶段采集的数据。实验采用6000个跨学科问题,结果显示RM-7B在自由形式答案任务中表现优异,且在多学科复杂判断中优于二元奖励。

此外,基于模型的奖励在数据量增加时展现出更好的可扩展性。尽管未使用思维链推理,但其在评估语义等价性上的必要性仍需研究。同时,在无直接监督的情况下,如何合理分配奖励也是未来方向。

论文开源了奖励模型及多学科数据集,为后续研究提供支持。这一成果表明,强化学习有望扩展至更多领域,而无需依赖传统规则或复杂的推理链。

原文链接
本文链接:https://kx.umi6.com/article/16647.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
又一篇“苦涩的教训”,让AI觉得人间有不值,发现无穷尽
2025-04-22 08:10:09
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
2025-04-09 21:08:08
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
24小时热文
更多
扫一扫体验小程序