6月3日,昆仑万维宣布开源全球首台RTX 4090服务器支持的2千亿参数稀疏大模型——天工MoE,基于Skywork-13B扩展,采用MoE Upcycling技术,可单卡运行。模型包含146B总参数和22B激活参数,16个13B Expert,每激活2个。相比同等20B激活量的Dense模型,Skywork-MoE性能接近70B,成本降低约3倍,参数规模小于DeepSeekV2的1/3。模型权重、技术报告开源,无需申请即可商用,链接如下:模型权重、仓库、技术报告及推理代码。
原文链接
本文链接:https://kx.umi6.com/article/765.html
转载请注明文章出处
相关推荐
换一换
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14 14:46:00
对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?
2024-07-05 20:47:52
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
昆仑万维开源2千亿稀疏大模型天工MoE,全球首创用4090推理
2024-06-06 18:12:00
MoE那么大,几段代码就能稳稳推理 | 开源
2025-07-02 18:09:04
清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行
2025-02-15 19:10:39
对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里
2025-01-27 12:28:38
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
2024-06-07 18:18:13
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
2024-11-07 10:59:44
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
609 文章
377082 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29