1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:DeepSeek开源第三弹:V3/R1训练推理秘籍,核心代码仅300行

开源周第三天,DeepSeek展示了训练推理V3/R1背后的“动力”——DeepGEMM,一个支持密集和混合专家矩阵乘法的FP8 GEMM库。GEMM是线性代数的基本运算,广泛应用于科学计算和深度学习领域。

DeepGEMM具有以下特点: - 高性能:在Hopper架构GPU上可达1350+FP8 TFLOPS。 - 简洁性:核心逻辑仅约300行代码。 - 即时编译:运行时动态生成优化代码。 - 轻量级:无复杂依赖关系。 - 多布局支持:兼容密集矩阵和MoE布局。

DeepGEMM加速了深度学习中的矩阵运算,尤其适用于大规模模型训练和推理。网友评价其为数学界的超级英雄,性能远超传统计算器。

DeepGEMM的设计简洁,基于CUDA编写,支持Hopper架构。性能测试显示,最高可达1358 TFLOPS的计算性能和2.7倍的加速比。

使用DeepGEMM需满足以下依赖: - 支持Hopper架构的GPU。 - Python 3.8及以上。 - CUDA 12.3及以上。 - PyTorch 2.1及以上。 - CUTLASS 3.6及以上。

安装和测试代码: bash git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git python setup.py develop python tests/test_jit.py python tests/test_core.py

接口包括gemm_fp8_fp8_bf16_nt和分组版本的m_grouped_gemm_fp8_fp8_bf16_nt_contiguousm_grouped_gemm_fp8_fp8_bf16_nt_masked

优化方式包括JIT设计、细粒度缩放和FFMA SASS交错。更多详情请查看GitHub链接: DeepGEMM GitHub

原文链接
本文链接:https://kx.umi6.com/article/14350.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
Hugging Face开源小参数模型SmolLM3
2025-07-09 07:58:36
给Manus七分钟,它可以做什么
2025-05-19 22:24:28
腾讯混元视频生成工具 HunyuanCustom 宣布开源,融合文本、图像、音频、视频等多模态输入生视频的能力
2025-05-09 12:47:33
智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”
2025-08-11 23:10:30
大模型呼唤开源多模态 AI加速冲刺物理世界
2025-06-07 14:50:49
京东云开源JoyAgent智能体
2025-07-26 10:36:52
字节跳动开源 Deep Research 项目 DeerFlow:可生成图文报告、语音播客
2025-05-10 21:11:54
月之暗面 Kimi K2 发布并开源,擅长代码与 Agentic 任务
2025-07-11 23:44:58
字节跳动开源其 AI IDE 工具核心组件 Trae-Agent
2025-07-07 08:24:33
Coze/Dify/FastGPT/N8N :该如何选择Agent平台?
2025-06-09 10:25:58
在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具
2025-04-17 02:20:31
阿里巴巴蔡崇信自曝:被 DeepSeek 逼急了,工程师春节睡办公室搞研发
2025-06-12 16:39:43
24小时热文
更多
扫一扫体验小程序