2024年6月3日,昆仑万维宣布开源全球最大稀疏大模型Skywork-MoE,基于13B模型扩展,全球首例4090单卡推理的开源千亿级MoE。该模型是天工3.0系列的中档模型,146B参数,22B激活,支持8x4090服务器推理。Skywork-MoE在20B激活下性能接近70B密集模型,成本降低3倍。创新包括Gating Logits归一化和自适应Aux Loss,提高模型性能和泛化。开源地址及模型、技术报告、代码全量提供,旨在推动MoE训练和推理效率的研究。
原文链接
本文链接:https://kx.umi6.com/article/923.html
转载请注明文章出处
相关推荐
换一换
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2025-02-12 13:32:45
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
2024-11-07 10:59:44
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里
2025-01-27 12:28:38
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14 14:46:00
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
2025-03-11 16:36:46
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
729 文章
622765 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21