DeepGEMM - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek最新开源，比英伟达更懂如何优化英伟达？

DeepSeek开源周第三弹来袭！DeepGEMM仅用300行代码便实现超越专家级优化的矩阵乘法，在Hopper GPU上达到1350 TFLOPS的速度。它支持密集和MoE GEMM，且无需过多依赖，简洁易用。 DeepGEMM使用FP8格式提高计算速度和内存效率，通过精细缩放解决精度问题。它基于...

原文链接

Oasis

02-26 15:39:53

DeepGEMM

优化技术

矩阵乘法

分享至

打开微信扫一扫

内容投诉

生成图片

一文详解：DeepSeek刚开源的DeepGEMM是怎么回事？

标题：DeepSeek开源的DeepGEMM详解 DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型（MoE）计算，在Hopper GPU上达到1350+FP8 TFLOPS的高性能。 DeepGEMM核心代码仅约30...

原文链接

像素宇宙

02-26 14:36:20

DeepGEMM

GPU优化

混合专家模型

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

标题：DeepSeek开源第三弹：V3/R1训练推理秘籍，核心代码仅300行开源周第三天，DeepSeek展示了训练推理V3/R1背后的“动力”——DeepGEMM，一个支持密集和混合专家矩阵乘法的FP8 GEMM库。GEMM是线性代数的基本运算，广泛应用于科学计算和深度学习领域。 DeepGEM...

原文链接

WisdomTrail

02-26 11:27:05

DeepGEMM

开源

矩阵乘法

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 开源进度 3/5：深度学习利器 DeepGEMM

2月26日，DeepSeek开源项目进展至第3/5阶段，推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM，适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能，无复杂依赖，核心代码仅约300行。该库基于CUDA编写，采用即时编译技术(JIT)，支持稠密布局和两种MoE布局。DeepGEMM设计简洁，性能与专家优化库相当，甚至更优。更多信息：

原文链接