1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:复刻DeepSeek-R1-Zero,沈向洋、姜大昕、张祥雨等开源RL训练方法

DeepSeek虽开源,但未公开训练代码和数据。近日,开源项目ORZ仅需1/30的训练步骤便能赶上DeepSeek-R1-Zero的蒸馏Qwen。该项目由国内大模型“六小强”之一的阶跃星辰联与清华联合发布,团队成员包括沈向洋、姜大昕及张祥雨。

ORZ在响应长度上,用约17%的训练步骤赶上DeepSeek-R1-Zero 671B。研究发现,在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度显著提升,疑似出现“顿悟时刻”。

目前,所有训练数据、代码、论文及模型均已100%开源,采用MIT License。项目开源48小时内,已获700+星标。

团队证明,一种极简主义的方法——带有GAE的原版PPO,加上基于规则的奖励函数,足以在推理任务上扩大响应长度和基准性能。此外,稳定训练不依赖任何基于KL的正则化技术,这为强化学习规模扩展提供希望。

数据多样性和数量对ORZ训练至关重要。在Qwen2.5-Base-7B基础上,所有基准测试均经历奖励和响应长度的突然增加,类似涌现行为。最终,ORZ在MMLU和MMLU_PRO基准测试中,无需额外指令调整,即超越Qwen2.5 Instruct。

项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

原文链接
本文链接:https://kx.umi6.com/article/14065.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
真如摄影、细至发丝!阿里开源新一代图像生成模型Qwen-Image
2025-12-31 21:40:29
腾讯宣布企业微信正式开源CLI AI可调用日程、文档等7大能力
2026-03-30 10:41:47
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
2025-12-14 22:01:20
X 平台正式开源推荐算法,马斯克称没有其他社交媒体公司这样做
2026-01-20 14:10:44
荣耀推出智能体基础模型MagicAgent 面向全球开源
2026-03-03 16:20:21
连续发布两款万亿参数模型,蚂蚁 AI 来势汹汹
2025-10-11 16:31:47
钉钉CLI开源!首批开放10项核心产品能力,原生支持ClaudeCode等
2026-03-27 20:17:17
小米开源首个原生端到端语音大模型
2025-09-19 10:10:03
马斯克宣布Grok-2正式开源 Grok-3也将在大概6个月内开源
2025-08-24 18:18:35
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
阶跃星辰全面开源 Step 3.5 Flash:预训练+训练框架全放出 冲上 OpenClaw Top2
2026-03-04 10:34:06
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
开源炸场!优必选具身智能大模型Thinker再次狂揽9项全球第一!
2026-02-02 11:31:14
24小时热文
更多
扫一扫体验小程序