
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2月25日,DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP,解决AI算力焦虑问题,GitHub迅速获得1500星。
DeepEP的亮点在于其优化的NVLink技术和RDMA技术。NVLink技术使同一仓库内的GPU传输速率高达每秒158GB,相当于将北京到上海的距离缩短至喝一口...
原文链接
2月25日,DeepSeek在开源周上发布了DeepEP,首个用于MoE模型训练和推理的EP通信库。该库支持高效全对全通信及低精度运算,兼容现代高性能计算需求。特别优化了NVLink到RDMA的非对称带宽转发场景,提供高吞吐量和SM数量控制。对于延迟敏感的推理解码,DeepEP还提供纯RDMA低延迟内核,支持自适应路由,满足多样化GPU资源需求。
原文链接
2月25日,DeepSeek在开源活动中发布了首个用于MoE模型训练和推理的EP通信库——DeepEP。该库具备高效全到全通信、支持NVLink和RDMA技术、高吞吐量内核、低延迟内核及FP8数据格式支持等特点。DeepEP专为MoE和EP设计,提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度计算,并兼容组限制门控算法。它还采用了通信与计算重叠方法,优化推理解码速度。要求包括Hopper GPUs、Python 3.8+、CUDA 12.3+及PyTorch 2.1+。详情可访问GitHub:
原文链接
DeepSeek开源周再添新成员,推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核,并支持FP8运算。开源协议采用宽松的MIT许可证。
DeepEP在GitHub上线后反响热烈,用户纷纷点赞。该库在性能...
原文链接
加载更多

暂无内容