综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:复刻DeepSeek-R1-Zero,沈向洋、姜大昕、张祥雨等开源RL训练方法
DeepSeek虽开源,但未公开训练代码和数据。近日,开源项目ORZ仅需1/30的训练步骤便能赶上DeepSeek-R1-Zero的蒸馏Qwen。该项目由国内大模型“六小强”之一的阶跃星辰联与清华联合发布,团队成员...
原文链接
加载更多
暂无内容