1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

6月4日,英伟达推出ProRL强化学习方法,通过延长训练至超2000步并扩展多领域数据(数学、编程、STEM等共13.6万样本),成功开发出全球最佳的1.5B参数推理模型Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多项基准测试中表现优异,尤其在数学领域提升15.7%,编程任务pass@1准确率提升14.4%,STEM推理及指令遵循分别提升25.9%和22.0%,逻辑谜题奖励值提升54.8%,展现强大泛化能力。此前,强化学习在推理模型中的应用受限,现有方法如RLVR未显著优于基础模型。英伟达采用verl框架和改进GRPO方法实现突破。

原文链接
本文链接:https://kx.umi6.com/article/19774.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布
2025-04-17 02:19:26
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
OpenAI两大推理模型,要把Agent吞进模型里了
2025-04-17 12:36:09
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
新研究:AI 推理模型在输掉国际象棋比赛之前会试图“作弊”扭转局面
2025-02-22 10:09:49
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
2025-06-11 15:12:46
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
24小时热文
更多
扫一扫体验小程序