标题:01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
一个超越DeepSeek GRPO的关键RL算法出现了!用上该算法后,Qwen2.5-32B模型仅靠RL训练,在AIME 2024基准上拿下50分,优于使用GRPO算法的DeepSeek-R1-Zero-Qwen,且训练步数减少50%。该算法名为DAPO,由字节、清华AIR联合实验室SIA Lab出品,现已开源。
论文通讯作者和开源项目负责人是01年出生的清华博士生禹棋赢。他本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年加入字节「Top Seed人才计划」,成为攻坚小组唯一的实习生,负责RL方向研究。
禹棋赢去年锁定大语言模型推理方向,与导师王明轩确定目标:打造强推理能力模型。基于观察到“采样更多,弱模型准确率也可提升”,他坚定选择RL路径。9月,RL与CoT结合大幅提升逻辑准确性,验证了方向正确。
10月,团队在字节内部跑通DeepSeek-R1的Aha Moment,发现模型能反思并换思维。禹棋赢判断这是outcome-based RL的潜力,随后迭代出DAPO算法。加入LLM攻坚小组后,他每天和导师讨论到深夜,甚至在公司打地铺。
禹棋赢的新目标是研究RL的scaling规律。他的成功案例体现了大模型行业对实际解决问题能力的重视,而非资历。学界和工业界均认可这种趋势,认为谁靠近前沿,谁就能定义规则。
量子位独家获悉,字节今年将继续Top Seed项目,由吴永辉亲自带队。
原文链接
本文链接:https://kx.umi6.com/article/15852.html
转载请注明文章出处
相关推荐
换一换
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
字节跳动 Seed 团队发布扩散语言模型 Diffusion Preview,每秒推理速度 2146 tokens
2025-08-01 09:05:41
字节视觉大模型负责人杨建朝今日内部官宣休息,周畅接任
2025-07-17 17:28:24
字节跳动即梦图片 4.0 发布:首次支持多模态生图,大白话就能编辑
2025-09-08 09:55:00
字节跳动发布端到端同声传译模型
2025-07-24 13:08:06
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
张一鸣门徒的AI战争:不做通用大模型,专攻“大厂缝隙”
2025-08-01 15:06:59
620 文章
380752 浏览
24小时热文
更多
-
2025-12-25 10:30:20 -
2025-12-25 10:29:13 -
2025-12-25 10:28:05