标题:01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
一个超越DeepSeek GRPO的关键RL算法出现了!用上该算法后,Qwen2.5-32B模型仅靠RL训练,在AIME 2024基准上拿下50分,优于使用GRPO算法的DeepSeek-R1-Zero-Qwen,且训练步数减少50%。该算法名为DAPO,由字节、清华AIR联合实验室SIA Lab出品,现已开源。
论文通讯作者和开源项目负责人是01年出生的清华博士生禹棋赢。他本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年加入字节「Top Seed人才计划」,成为攻坚小组唯一的实习生,负责RL方向研究。
禹棋赢去年锁定大语言模型推理方向,与导师王明轩确定目标:打造强推理能力模型。基于观察到“采样更多,弱模型准确率也可提升”,他坚定选择RL路径。9月,RL与CoT结合大幅提升逻辑准确性,验证了方向正确。
10月,团队在字节内部跑通DeepSeek-R1的Aha Moment,发现模型能反思并换思维。禹棋赢判断这是outcome-based RL的潜力,随后迭代出DAPO算法。加入LLM攻坚小组后,他每天和导师讨论到深夜,甚至在公司打地铺。
禹棋赢的新目标是研究RL的scaling规律。他的成功案例体现了大模型行业对实际解决问题能力的重视,而非资历。学界和工业界均认可这种趋势,认为谁靠近前沿,谁就能定义规则。
量子位独家获悉,字节今年将继续Top Seed项目,由吴永辉亲自带队。
原文链接
本文链接:https://kx.umi6.com/article/15852.html
转载请注明文章出处
相关推荐
换一换
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
字节跳动推出视频生成模型OmniHuman-1.5
2025-08-28 21:29:35
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
2025-09-13 17:30:05
字节跳动将对Seed部门大模型技术人员增发期权
2025-09-03 12:45:43
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录
2025-08-21 14:33:12
字节跳动辟谣:与芯原股份并无AI芯片相关合作
2025-08-20 16:22:32
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5
2025-12-24 12:36:08
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
696 文章
535742 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17