标题:复刻DeepSeek-R1-Zero,沈向洋、姜大昕、张祥雨等开源RL训练方法
DeepSeek虽开源,但未公开训练代码和数据。近日,开源项目ORZ仅需1/30的训练步骤便能赶上DeepSeek-R1-Zero的蒸馏Qwen。该项目由国内大模型“六小强”之一的阶跃星辰联与清华联合发布,团队成员包括沈向洋、姜大昕及张祥雨。
ORZ在响应长度上,用约17%的训练步骤赶上DeepSeek-R1-Zero 671B。研究发现,在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度显著提升,疑似出现“顿悟时刻”。
目前,所有训练数据、代码、论文及模型均已100%开源,采用MIT License。项目开源48小时内,已获700+星标。
团队证明,一种极简主义的方法——带有GAE的原版PPO,加上基于规则的奖励函数,足以在推理任务上扩大响应长度和基准性能。此外,稳定训练不依赖任何基于KL的正则化技术,这为强化学习规模扩展提供希望。
数据多样性和数量对ORZ训练至关重要。在Qwen2.5-Base-7B基础上,所有基准测试均经历奖励和响应长度的突然增加,类似涌现行为。最终,ORZ在MMLU和MMLU_PRO基准测试中,无需额外指令调整,即超越Qwen2.5 Instruct。
项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/
原文链接
本文链接:https://kx.umi6.com/article/14065.html
转载请注明文章出处
相关推荐
换一换
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
黄仁勋率先开源量子AI大模型
2026-04-15 12:57:46
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
蚂蚁灵波开源具身大模型LingBot-VLA,让机器人“看的更清楚 做的更明白”
2026-01-28 11:08:15
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了
2026-04-23 09:57:38
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
DeepSeek V4报告太详尽了!484天换代之路全公开
2026-04-25 12:10:04
商汤开源空间智能大模型SenseNova-SI
2025-11-11 08:59:30
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
806 文章
691228 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08