1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年10月,小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文,提出了一种名为Rollout Routing Replay(R3)的新方法。R3通过复用推理阶段的路由分布,显著提升了MoE模型在强化学习中的稳定性和效率。实验显示,R3在Qwen3-30B-A3B模型上表现优异,性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉,她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是,罗福莉在论文中仍标注为‘独立研究者’身份,引发外界对其职业动向的关注。论文已公开于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/26838.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小米AI眼镜官宣
2025-06-25 09:29:03
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
24小时热文
更多
扫一扫体验小程序