标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
DeepSeek前实习生优化MoE,迭代机制减少42%内存需求
西风 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42%。
CoE通过专家在单层内的串行通信,形成迭代机制,从而改进MoE并行处理方式,减少内存消耗。
研究显示,经过两次迭代的CoE,将数学任务的验证损失从1.20降至1.12,性能提升明显。
CoE通过增加迭代次数,在保持性能的同时,内存使用比增加模型层数或扩展专家选择数量的方法降低了17.6%-42%。
此外,CoE在专家组合自由度和使用效率等方面也有显著优势。
研究团队已发布CoE技术Blog(完整论文即将发布),引起广泛关注。
作者Zihan Wang曾是DeepSeek的实习生,也是ESFT论文的一作。
有网友评论MoEs中的IsoFLOP层迭代设计非常出色,还有人开始预测下一代架构。
CoE通过建立沟通性处理机制,改变稀疏神经网络的信息处理方式。实验表明,CoE在性能、资源效率优化等方面具有显著优势。
团队进一步测试发现,CoE在“dense”模型上的表现优于Dense模型,特别是在减少内存需求方面。
CoE-2(4/48)的效果与MoE(8/64)相近,但内存需求减少了17.6%。
团队对比了扩展CoE迭代次数和扩展模型层数、专家选择个数的效果,结果显示扩展CoE迭代次数更优。
CoE-2(8/64)和MoE(8/64)效果相似,但CoE节省了42%的内存。
团队强调,独立门控机制和内残差连接是CoE的关键架构创新。
CoE由五人团队提出,Zihan Wang是其中一员,他曾在DeepSeek实习,并参与多个项目。
更多详情,请查看技术报告原文和GitHub链接。
原文链接
本文链接:https://kx.umi6.com/article/15056.html
转载请注明文章出处
相关推荐
.png)
换一换
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
OpenAI o1开辟“慢思考”,国产AI早已集结在CoE“组团”先出发
2024-09-19 15:33:35
榨干每一块GPU,DeepSeek开源第二天,送上降本增效神器
2025-02-25 16:02:59
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?
2024-07-05 20:47:52
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里
2025-01-27 12:28:38
大模型的中场战事:CoE or MoE ?
2024-08-03 11:48:38
520 文章
215427 浏览
24小时热文
更多

-
2025-09-09 17:19:03
-
2025-09-09 17:18:09
-
2025-09-09 17:17:56