标题:01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
一个超越DeepSeek GRPO的关键RL算法出现了!用上该算法后,Qwen2.5-32B模型仅靠RL训练,在AIME 2024基准上拿下50分,优于使用GRPO算法的DeepSeek-R1-Zero-Qwen,且训练步数减少50%。该算法名为DAPO,由字节、清华AIR联合实验室SIA Lab出品,现已开源。
论文通讯作者和开源项目负责人是01年出生的清华博士生禹棋赢。他本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年加入字节「Top Seed人才计划」,成为攻坚小组唯一的实习生,负责RL方向研究。
禹棋赢去年锁定大语言模型推理方向,与导师王明轩确定目标:打造强推理能力模型。基于观察到“采样更多,弱模型准确率也可提升”,他坚定选择RL路径。9月,RL与CoT结合大幅提升逻辑准确性,验证了方向正确。
10月,团队在字节内部跑通DeepSeek-R1的Aha Moment,发现模型能反思并换思维。禹棋赢判断这是outcome-based RL的潜力,随后迭代出DAPO算法。加入LLM攻坚小组后,他每天和导师讨论到深夜,甚至在公司打地铺。
禹棋赢的新目标是研究RL的scaling规律。他的成功案例体现了大模型行业对实际解决问题能力的重视,而非资历。学界和工业界均认可这种趋势,认为谁靠近前沿,谁就能定义规则。
量子位独家获悉,字节今年将继续Top Seed项目,由吴永辉亲自带队。
原文链接
本文链接:https://kx.umi6.com/article/15852.html
转载请注明文章出处
相关推荐
换一换
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
字节跳动申请注册“即梦灵感助手”商标
2025-07-04 15:53:09
字节跳动:AI开发工具TRAE月活已超百万
2025-06-12 14:38:12
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
字节跳动推出豆包翻译大模型:支持 28 种语言互译,性能比肩 GPT-4o
2025-09-22 17:01:35
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
2025-09-26 11:24:15
字节跳动Seed团队发布扩散语言模型 每秒推理速度2146 tokens
2025-08-01 09:24:01
540 文章
257495 浏览
24小时热文
更多
-
2025-10-25 08:14:19 -
2025-10-24 22:57:14 -
2025-10-24 21:54:02