1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求

DeepSeek前实习生优化MoE,迭代机制减少42%内存需求

西风 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42%。

CoE通过专家在单层内的串行通信,形成迭代机制,从而改进MoE并行处理方式,减少内存消耗。

研究显示,经过两次迭代的CoE,将数学任务的验证损失从1.20降至1.12,性能提升明显。

CoE通过增加迭代次数,在保持性能的同时,内存使用比增加模型层数或扩展专家选择数量的方法降低了17.6%-42%。

此外,CoE在专家组合自由度和使用效率等方面也有显著优势。

研究团队已发布CoE技术Blog(完整论文即将发布),引起广泛关注。

作者Zihan Wang曾是DeepSeek的实习生,也是ESFT论文的一作。

有网友评论MoEs中的IsoFLOP层迭代设计非常出色,还有人开始预测下一代架构。

CoE通过建立沟通性处理机制,改变稀疏神经网络的信息处理方式。实验表明,CoE在性能、资源效率优化等方面具有显著优势。

团队进一步测试发现,CoE在“dense”模型上的表现优于Dense模型,特别是在减少内存需求方面。

CoE-2(4/48)的效果与MoE(8/64)相近,但内存需求减少了17.6%。

团队对比了扩展CoE迭代次数和扩展模型层数、专家选择个数的效果,结果显示扩展CoE迭代次数更优。

CoE-2(8/64)和MoE(8/64)效果相似,但CoE节省了42%的内存。

团队强调,独立门控机制和内残差连接是CoE的关键架构创新。

CoE由五人团队提出,Zihan Wang是其中一员,他曾在DeepSeek实习,并参与多个项目。

更多详情,请查看技术报告原文和GitHub链接。

原文链接
本文链接:https://kx.umi6.com/article/15056.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
2025-03-11 16:36:46
OpenAI o1开辟“慢思考”,国产AI早已集结在CoE“组团”先出发
2024-09-19 15:33:35
24小时热文
更多
扫一扫体验小程序