1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年10月,小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文,提出了一种名为Rollout Routing Replay(R3)的新方法。R3通过复用推理阶段的路由分布,显著提升了MoE模型在强化学习中的稳定性和效率。实验显示,R3在Qwen3-30B-A3B模型上表现优异,性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉,她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是,罗福莉在论文中仍标注为‘独立研究者’身份,引发外界对其职业动向的关注。论文已公开于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/26838.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
罗福莉首个小米成果!开源具身大模型
2025-11-22 16:22:47
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
小米 AI 新论文,雷军千万年薪要挖的 DeepSeek“天才少女”罗福莉署名
2025-10-16 13:53:15
小米:未来三年 AI领域计划投入至少600亿元
2026-03-19 21:39:18
前DeepSeek研究员罗福莉已加入小米:全力奔赴心目中的AGI
2025-11-12 14:08:59
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
2026-01-07 16:15:48
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
24小时热文
更多
扫一扫体验小程序