2月25日,DeepSeek在开源活动中发布了首个用于MoE模型训练和推理的EP通信库——DeepEP。该库具备高效全到全通信、支持NVLink和RDMA技术、高吞吐量内核、低延迟内核及FP8数据格式支持等特点。DeepEP专为MoE和EP设计,提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度计算,并兼容组限制门控算法。它还采用了通信与计算重叠方法,优化推理解码速度。要求包括Hopper GPUs、Python 3.8+、CUDA 12.3+及PyTorch 2.1+。详情可访问GitHub:
原文链接
本文链接:https://kx.umi6.com/article/14249.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
华泰证券:DeepEP开源有望释放推理需求 关注应用与算力
2025-03-03 09:14:06
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
2025-05-19 14:16:37
430 文章
73997 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21