1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:DeepSeek开源的DeepGEMM详解

DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型(MoE)计算,在Hopper GPU上达到1350+FP8 TFLOPS的高性能。

DeepGEMM核心代码仅约300行,支持三种数据排列方式:标准排列和两种专为混合专家模型设计的特殊排列(连续排列和掩码排列)。它采用即时编译技术,无需安装时编译,代码结构清晰,适合学习GPU优化技术。

DeepGEMM在各种计算场景下表现出色。对于标准矩阵乘法,速度提升1.0到2.7倍不等,小批量数据处理(M=64或128)加速最显著。混合专家模型计算中,连续排列方式速度提升1.1到1.2倍,适用于训练和批量推理;掩码排列方式则适用于实时推理,同样提速1.1到1.2倍。

FP8精度的矩阵乘法在DeepGEMM中得到专门优化,解决了Hopper架构在处理FP8计算时可能出现的精度问题。DeepGEMM充分利用Hopper架构的张量核心和TMA技术,进一步提升性能。

即时编译技术使得DeepGEMM能根据当前任务自动选择最佳参数配置,提高小矩阵形状的计算性能。此外,DeepGEMM采用了线程专业化技术和多项创新,如非标准块大小和指令级优化。

使用DeepGEMM需满足特定硬件和软件要求,包括Hopper架构GPU、Python 3.8以上、CUDA 12.3以上、PyTorch 2.1以上及CUTLASS 3.6以上。

原文链接
本文链接:https://kx.umi6.com/article/14371.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek宣布开源DeepGEMM
2025-02-26 09:28:30
DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM
2025-02-26 10:32:32
DeepSeek最新开源,比英伟达更懂如何优化英伟达?
2025-02-26 15:39:53
24小时热文
更多
扫一扫体验小程序