1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一个超越DeepSeek GRPO的关键RL算法出现了!用上该算法后,Qwen2.5-32B模型仅靠RL训练,在AIME 2024基准上拿下50分,优于使用GRPO算法的DeepSeek-R1-Zero-Qwen,且训练步数减少50%。该算法名为DAPO,由字节、清华AIR联合实验室SIA Lab出品,现已开源。

论文通讯作者和开源项目负责人是01年出生的清华博士生禹棋赢。他本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年加入字节「Top Seed人才计划」,成为攻坚小组唯一的实习生,负责RL方向研究。

禹棋赢去年锁定大语言模型推理方向,与导师王明轩确定目标:打造强推理能力模型。基于观察到“采样更多,弱模型准确率也可提升”,他坚定选择RL路径。9月,RL与CoT结合大幅提升逻辑准确性,验证了方向正确。

10月,团队在字节内部跑通DeepSeek-R1的Aha Moment,发现模型能反思并换思维。禹棋赢判断这是outcome-based RL的潜力,随后迭代出DAPO算法。加入LLM攻坚小组后,他每天和导师讨论到深夜,甚至在公司打地铺。

禹棋赢的新目标是研究RL的scaling规律。他的成功案例体现了大模型行业对实际解决问题能力的重视,而非资历。学界和工业界均认可这种趋势,认为谁靠近前沿,谁就能定义规则。

量子位独家获悉,字节今年将继续Top Seed项目,由吴永辉亲自带队。

原文链接
本文链接:https://kx.umi6.com/article/15852.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节跳动发布Seedream 4.0图像创作模型
2025-09-09 13:15:57
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
字节Seed团队推出3D生成大模型Seed3D 1.0
2025-10-23 16:12:12
人像图转手办图、渲染文字支持编辑,字节跳动发布 Seedream 4.0 图像创作模型
2025-09-09 15:16:29
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
字节跳动即梦图片 4.0 发布:首次支持多模态生图,大白话就能编辑
2025-09-08 09:55:00
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
字节跳动正推进与多家厂商的AI手机合作
2025-12-19 11:50:22
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
字节推出形式化数学推理专用模型Seed Prover 1.5
2025-12-24 12:40:34
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
24小时热文
更多
扫一扫体验小程序