
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月7日消息,腾讯技术团队对DeepSeek开源的DeepEP通信框架进行了深度优化,大幅提升了其性能。优化后,在RoCE网络环境下性能提升100%,IB网络环境下提升30%。DeepEP专为专家混合(MoE)和专家并行(EP)设计,具备高吞吐量和低延迟特性,并支持FP8低精度运算。腾讯星脉网络团队通过解决双端口网卡带宽利用率低及CPU控制面交互时延两大问题实现了这一突破。优化成果已全面开源,并成功应用于腾讯混元大模型的训练推理中,展现了良好的通用性。DeepSeek对此表示公开致谢。
原文链接
3月3日,华泰证券表示DeepSeek通过优化推理成本,可能加速LLM的商业化应用。这将提升IaaS服务商稼动率,利好云厂商。R1模型提升能力和低成本部署有望加速AI应用渗透。尽管当前DeepEP需在特定硬件框架下运行,未来随着国产硬件适配,国产AI算力板块或将迎来发展机遇。
原文链接
2月25日,DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP,解决AI算力焦虑问题,GitHub迅速获得1500星。
DeepEP的亮点在于其优化的NVLink技术和RDMA技术。NVLink技术使同一仓库内的GPU传输速率高达每秒158GB,相当于将北京到上海的距离缩短至喝一口...
原文链接
标题:榨干每块GPU,DeepSeek开源第二天带来降本增效神器
DeepSeek开源周进入第二天,持续推动AI大模型基础建设。今天,DeepSeek发布了DeepEP,一款专为混合专家系统(MoE)和专家并行(EP)设计的通信库。
DeepEP的设计灵感源自DeepSeek-V3论文中的群组限制门...
原文链接
2月25日,DeepSeek在开源周上发布了DeepEP,首个用于MoE模型训练和推理的EP通信库。该库支持高效全对全通信及低精度运算,兼容现代高性能计算需求。特别优化了NVLink到RDMA的非对称带宽转发场景,提供高吞吐量和SM数量控制。对于延迟敏感的推理解码,DeepEP还提供纯RDMA低延迟内核,支持自适应路由,满足多样化GPU资源需求。
原文链接
2月25日,DeepSeek在开源活动中发布了首个用于MoE模型训练和推理的EP通信库——DeepEP。该库具备高效全到全通信、支持NVLink和RDMA技术、高吞吐量内核、低延迟内核及FP8数据格式支持等特点。DeepEP专为MoE和EP设计,提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度计算,并兼容组限制门控算法。它还采用了通信与计算重叠方法,优化推理解码速度。要求包括Hopper GPUs、Python 3.8+、CUDA 12.3+及PyTorch 2.1+。详情可访问GitHub:
原文链接
DeepSeek开源周再添新成员,推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核,并支持FP8运算。开源协议采用宽松的MIT许可证。
DeepEP在GitHub上线后反响热烈,用户纷纷点赞。该库在性能...
原文链接
加载更多

暂无内容