10月14日,小米与北京大学联合发表一篇AI论文,通讯作者之一是被曝获雷军千万年薪挖角的DeepSeek“天才少女”罗福莉。论文提出一种名为Rollout Routing Replay(R3)的新方法,用于提升MoE模型在强化学习训练中的稳定性和性能。研究显示,R3显著缩小了训练和推理间的差异,KL散度降低一个量级,且避免了训练崩溃问题。罗福莉曾参与DeepSeek-V2研发,但论文未标注其隶属于小米团队。这一成果为解决MoE模型训练不稳定性提供了新思路,可能对多轮对话和Agent任务场景有重要应用价值。
原文链接
本文链接:https://kx.umi6.com/article/26761.html
转载请注明文章出处
相关推荐
.png)
换一换
雷军“三十顾茅庐”求的人才,来了
2025-02-20 15:20:49
曾被雷军千万年薪挖角 曝天才少女罗福莉已到新岗位上班
2025-02-18 01:02:43
罗福莉深夜发声:我不是天才少女 捧得多高摔得多重
2025-02-19 10:49:00
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
小米 AI 新论文,雷军千万年薪要挖的 DeepSeek“天才少女”罗福莉署名
2025-10-16 13:53:15
被雷军千万年薪挖角的罗福莉已到新岗位 小米内部员工系统暂无信息
2025-02-18 17:27:41
ChatGPT “记忆已满”不用愁,OpenAI 推出记忆自动管理功能
2025-10-16 12:54:51
英伟达携手澳大利亚初创企业打造29亿美元数据中心计划
2025-10-16 13:54:15
光刻机之王最新财报
2025-10-16 11:52:31
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025-10-16 14:53:40
“全都是泡沫”?硅谷AI泡沫论正急剧升温
2025-10-16 17:00:10
Meta斥资15亿美元在得州新建数据中心,加码人工智能布局
2025-10-16 02:44:30
AI行情到了第几层?
2025-10-16 09:48:40
522 文章
247054 浏览
24小时热文
更多

-
2025-10-16 18:00:06
-
2025-10-16 17:59:01
-
2025-10-16 17:57:55