1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek开源周再添新成员,推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核,并支持FP8运算。开源协议采用宽松的MIT许可证。

DeepEP在GitHub上线后反响热烈,用户纷纷点赞。该库在性能上表现优异,具备高效的all-to-all通信、NVLink和RDMA支持、高吞吐量和低延迟内核,以及原生FP8调度支持和灵活的GPU资源控制。

DeepEP分为两种内核:一种针对高吞吐量任务,另一种则注重低延迟。前者适用于训练和推理预填充任务,后者则优化了延迟敏感型解码场景。DeepEP团队在H800上进行了测试,确保其在不同场景下的性能。

使用DeepEP需配备特定硬件和软件环境,包括Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.1及以上版本等。网络配置方面,DeepEP已在InfiniBand网络上全面测试,并兼容RoCE。

为优化性能,DeepEP建议启用自适应路由,但在网络负载较轻时使用静态路由。团队还发现一条PTX指令能提升性能,但可能影响其他平台,用户可根据情况调整。

DeepSeek在GitHub上新开库https://github.com/deepseek-ai/open-infra-index,预计开源周内容均与AI基础设施相关。

原文链接
本文链接:https://kx.umi6.com/article/14246.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP
2025-02-25 11:53:00
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
2025-05-30 16:54:34
对话蜜度CTO刘益东:价格战、MoE......中国AI大模型下一步“卷”什么?
2024-07-05 20:47:52
MoE那么大,几段代码就能稳稳推理 | 开源
2025-07-02 18:09:04
DeepSeek扔的第二枚开源王炸到底是什么?
2025-02-25 20:07:11
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
昆仑万维开源2千亿稀疏大模型天工MoE,全球首创用4090推理
2024-06-06 18:12:00
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
DeepSeek 致谢腾讯技术团队,DeepEP 开源通信框架性能显著提升
2025-05-07 20:17:50
对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里
2025-01-27 12:28:38
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
2024-06-03 18:55:11
24小时热文
更多
扫一扫体验小程序