01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

2025-03-20 19:41:21

WisdomTrail

发布在

科普

阅读：1406

标题：01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

衡宇发自凹非寺
量子位 | 公众号 QbitAI

一个超越DeepSeek GRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型仅靠RL训练，在AIME 2024基准上拿下50分，优于使用GRPO算法的DeepSeek-R1-Zero-Qwen，且训练步数减少50%。该算法名为DAPO，由字节、清华AIR联合实验室SIA Lab出品，现已开源。

论文通讯作者和开源项目负责人是01年出生的清华博士生禹棋赢。他本科毕业于哈工大，直博进入清华AIR，目前博士三年级在读。去年加入字节「Top Seed人才计划」，成为攻坚小组唯一的实习生，负责RL方向研究。

禹棋赢去年锁定大语言模型推理方向，与导师王明轩确定目标：打造强推理能力模型。基于观察到“采样更多，弱模型准确率也可提升”，他坚定选择RL路径。9月，RL与CoT结合大幅提升逻辑准确性，验证了方向正确。

10月，团队在字节内部跑通DeepSeek-R1的Aha Moment，发现模型能反思并换思维。禹棋赢判断这是outcome-based RL的潜力，随后迭代出DAPO算法。加入LLM攻坚小组后，他每天和导师讨论到深夜，甚至在公司打地铺。

禹棋赢的新目标是研究RL的scaling规律。他的成功案例体现了大模型行业对实际解决问题能力的重视，而非资历。学界和工业界均认可这种趋势，认为谁靠近前沿，谁就能定义规则。

量子位独家获悉，字节今年将继续Top Seed项目，由吴永辉亲自带队。

原文链接

本文链接：https://kx.umi6.com/article/15852.html

转载请注明文章出处

字节跳动