DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

2025-02-26 11:27:05

WisdomTrail

发布在

科普

阅读：640

标题：DeepSeek开源第三弹：V3/R1训练推理秘籍，核心代码仅300行

开源周第三天，DeepSeek展示了训练推理V3/R1背后的“动力”——DeepGEMM，一个支持密集和混合专家矩阵乘法的FP8 GEMM库。GEMM是线性代数的基本运算，广泛应用于科学计算和深度学习领域。

DeepGEMM具有以下特点： - 高性能：在Hopper架构GPU上可达1350+FP8 TFLOPS。 - 简洁性：核心逻辑仅约300行代码。 - 即时编译：运行时动态生成优化代码。 - 轻量级：无复杂依赖关系。 - 多布局支持：兼容密集矩阵和MoE布局。

DeepGEMM加速了深度学习中的矩阵运算，尤其适用于大规模模型训练和推理。网友评价其为数学界的超级英雄，性能远超传统计算器。

DeepGEMM的设计简洁，基于CUDA编写，支持Hopper架构。性能测试显示，最高可达1358 TFLOPS的计算性能和2.7倍的加速比。

使用DeepGEMM需满足以下依赖： - 支持Hopper架构的GPU。 - Python 3.8及以上。 - CUDA 12.3及以上。 - PyTorch 2.1及以上。 - CUTLASS 3.6及以上。

安装和测试代码： bash git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py

接口包括gemm_fp8_fp8_bf16_nt和分组版本的m_grouped_gemm_fp8_fp8_bf16_nt_contiguous及m_grouped_gemm_fp8_fp8_bf16_nt_masked。

优化方式包括JIT设计、细粒度缩放和FFMA SASS交错。更多详情请查看GitHub链接： DeepGEMM GitHub

原文链接

本文链接：https://kx.umi6.com/article/14350.html

转载请注明文章出处

DeepGEMM