1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

2025-02-22 18:40:47

小阳哥

发布在

科普

阅读：891

标题：复刻DeepSeek-R1-Zero，沈向洋、姜大昕、张祥雨等开源RL训练方法

DeepSeek虽开源，但未公开训练代码和数据。近日，开源项目ORZ仅需1/30的训练步骤便能赶上DeepSeek-R1-Zero的蒸馏Qwen。该项目由国内大模型“六小强”之一的阶跃星辰联与清华联合发布，团队成员包括沈向洋、姜大昕及张祥雨。

ORZ在响应长度上，用约17%的训练步骤赶上DeepSeek-R1-Zero 671B。研究发现，在训练步骤约680步时，模型的训练奖励值、反思能力和回答长度显著提升，疑似出现“顿悟时刻”。

目前，所有训练数据、代码、论文及模型均已100%开源，采用MIT License。项目开源48小时内，已获700+星标。

团队证明，一种极简主义的方法——带有GAE的原版PPO，加上基于规则的奖励函数，足以在推理任务上扩大响应长度和基准性能。此外，稳定训练不依赖任何基于KL的正则化技术，这为强化学习规模扩展提供希望。

数据多样性和数量对ORZ训练至关重要。在Qwen2.5-Base-7B基础上，所有基准测试均经历奖励和响应长度的突然增加，类似涌现行为。最终，ORZ在MMLU和MMLU_PRO基准测试中，无需额外指令调整，即超越Qwen2.5 Instruct。

项目地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

原文链接

本文链接：https://kx.umi6.com/article/14065.html

转载请注明文章出处

Zero

开源

训练

分享至

打开微信扫一扫

内容投诉

生成图片

小阳哥

825 文章

873779 浏览

24小时热文