标题:复刻DeepSeek-R1-Zero,沈向洋、姜大昕、张祥雨等开源RL训练方法
DeepSeek虽开源,但未公开训练代码和数据。近日,开源项目ORZ仅需1/30的训练步骤便能赶上DeepSeek-R1-Zero的蒸馏Qwen。该项目由国内大模型“六小强”之一的阶跃星辰联与清华联合发布,团队成员包括沈向洋、姜大昕及张祥雨。
ORZ在响应长度上,用约17%的训练步骤赶上DeepSeek-R1-Zero 671B。研究发现,在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度显著提升,疑似出现“顿悟时刻”。
目前,所有训练数据、代码、论文及模型均已100%开源,采用MIT License。项目开源48小时内,已获700+星标。
团队证明,一种极简主义的方法——带有GAE的原版PPO,加上基于规则的奖励函数,足以在推理任务上扩大响应长度和基准性能。此外,稳定训练不依赖任何基于KL的正则化技术,这为强化学习规模扩展提供希望。
数据多样性和数量对ORZ训练至关重要。在Qwen2.5-Base-7B基础上,所有基准测试均经历奖励和响应长度的突然增加,类似涌现行为。最终,ORZ在MMLU和MMLU_PRO基准测试中,无需额外指令调整,即超越Qwen2.5 Instruct。
项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/
原文链接
本文链接:https://kx.umi6.com/article/14065.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯智能体框架 Youtu-Agent 开源,搭建 Agent 只需两步
2025-09-02 16:34:48
阶跃星辰开源 3D 大模型 Step1X-3D,可生成高保真、可控的 3D 内容
2025-05-14 17:24:10
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
2025-08-11 23:10:30
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
2025-04-28 12:48:54
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek开源新模型,数学推理能力大提升
2025-05-01 09:16:24
给Manus七分钟,它可以做什么
2025-05-19 22:24:28
谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持
2025-06-26 10:56:45
Hugging Face 公布 4.5 亿参数开源机器人模型 SmolVLA,消费级硬件设备即可运行
2025-06-09 18:33:05
字节跳动开源 Deep Research 项目 DeerFlow:可生成图文报告、语音播客
2025-05-10 21:11:54
字节跳动扣子 Coze 宣布开源:采用 Apache 2.0 许可证,支持商用
2025-07-26 15:40:54
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
562 文章
236387 浏览
24小时热文
更多

-
2025-09-28 22:01:43
-
2025-09-28 22:01:30
-
2025-09-28 22:00:37