DeepSeek开源第二弹，为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

2025-02-25 11:49:28

AI奇点纪元

发布在

科普

阅读：218

DeepSeek开源周再添新成员，推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库，提供高吞吐量和低延迟的all-to-all GPU内核，并支持FP8运算。开源协议采用宽松的MIT许可证。

DeepEP在GitHub上线后反响热烈，用户纷纷点赞。该库在性能上表现优异，具备高效的all-to-all通信、NVLink和RDMA支持、高吞吐量和低延迟内核，以及原生FP8调度支持和灵活的GPU资源控制。

DeepEP分为两种内核：一种针对高吞吐量任务，另一种则注重低延迟。前者适用于训练和推理预填充任务，后者则优化了延迟敏感型解码场景。DeepEP团队在H800上进行了测试，确保其在不同场景下的性能。

使用DeepEP需配备特定硬件和软件环境，包括Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.1及以上版本等。网络配置方面，DeepEP已在InfiniBand网络上全面测试，并兼容RoCE。

为优化性能，DeepEP建议启用自适应路由，但在网络负载较轻时使用静态路由。团队还发现一条PTX指令能提升性能，但可能影响其他平台，用户可根据情况调整。

DeepSeek在GitHub上新开库https://github.com/deepseek-ai/open-infra-index，预计开源周内容均与AI基础设施相关。

原文链接

本文链接：https://kx.umi6.com/article/14246.html

转载请注明文章出处

DeepEP

MoE

通信库

分享至

打开微信扫一扫

内容投诉

生成图片

AI奇点纪元

565 文章

255422 浏览

24小时热文