1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年10月,小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文,提出了一种名为Rollout Routing Replay(R3)的新方法。R3通过复用推理阶段的路由分布,显著提升了MoE模型在强化学习中的稳定性和效率。实验显示,R3在Qwen3-30B-A3B模型上表现优异,性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉,她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是,罗福莉在论文中仍标注为‘独立研究者’身份,引发外界对其职业动向的关注。论文已公开于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/26838.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
小米神操作!认领榜一神秘模型Hunter Alpha,龙虾之父都忍不住打听
2026-03-19 09:38:18
小米:未来三年 AI领域计划投入至少600亿元
2026-03-19 21:39:18
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
小米、海信等在浙江成立智屏视界科技公司 注册资本5000万
2025-10-31 15:40:41
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
Dwarkesh最新播客:AI 进展年终总结
2025-12-25 18:54:19
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件
2026-05-09 17:26:04
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
雷军:十五五小米将重点攻坚芯片、AI、操作系统等底层核心技术
2026-02-24 15:52:13
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
24小时热文
更多
扫一扫体验小程序