DeepSeek最新开源，比英伟达更懂如何优化英伟达？

2025-02-26 15:39:53

Oasis

发布在

科普

阅读：1050

DeepSeek开源周第三弹来袭！DeepGEMM仅用300行代码便实现超越专家级优化的矩阵乘法，在Hopper GPU上达到1350 TFLOPS的速度。它支持密集和MoE GEMM，且无需过多依赖，简洁易用。

DeepGEMM使用FP8格式提高计算速度和内存效率，通过精细缩放解决精度问题。它基于NVIDIA CUDA平台，采用即时编译技术，提高灵活性。为确保计算准确，DeepGEMM采用CUDA核心进行两级累加。

尽管核心代码仅300行，DeepGEMM性能表现优异，尤其在小批量处理上加速比达2.7倍，适合实时推理。对于混合专家模型，性能提升稳定，大批量处理也有1.1-1.2倍的优势。

DeepGEMM的内核设计高效，数据移动、MMA指令和CUDA核心提升可重叠执行。它还采用了Warp专用内核、张量内存加速器、专用PTX指令、重叠操作、统一调度器等技术，极大提升了吞吐量。

DeepSeek开源周发布多项技术，显示其对GPU架构的深刻理解。趋境科技认为DeepSeek比NVIDIA更懂如何优化Hopper架构。未来，这些优化有望广泛应用，降低大模型推理成本，推动智能普惠时代到来。

原文链接

本文链接：https://kx.umi6.com/article/14377.html

转载请注明文章出处

DeepGEMM

优化技术

矩阵乘法

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

697 文章

768831 浏览

24小时热文