2月25日,DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP,解决AI算力焦虑问题,GitHub迅速获得1500星。
DeepEP的亮点在于其优化的NVLink技术和RDMA技术。NVLink技术使同一仓库内的GPU传输速率高达每秒158GB,相当于将北京到上海的距离缩短至喝一口水的时间。RDMA技术则实现了货物的“量子传送”,每秒可传输47个集装箱,并支持计算与通信重叠,消除停机等待。
此外,DeepEP具备智能分拣功能。在训练预填充模式下,4096个数据包同时通过智能传送带,自动识别同城或跨城件。在推理预填充模式中,128个加急包裹可在163微秒内送达,比眨眼还快5倍。
DeepEP还采用了FP8格式,将数据压缩成微型胶囊,使卡车装载量增加3倍。该系统已在DeepSeek自家仓库中实测,同城货运速度提升3倍,跨城延迟降至几乎不可感知的水平。
DeepSeek开源此技术,将大幅减少重型任务所需的GPU数量,从2000台缩减至数百台。此前,DeepSeek已发布FlashMLA,以降低大模型训练成本。
原文链接
本文链接:https://kx.umi6.com/article/14299.html
转载请注明文章出处
相关推荐
.png)
换一换
英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法
2024-06-20 20:26:57
字节对MoE模型训练成本再砍一刀 成本可节省40%
2025-03-10 17:52:30
通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品,暂未开源
2025-01-29 03:58:28
426 文章
66836 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21