Hopper - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 开源进度 3/5：深度学习利器 DeepGEMM

2月26日，DeepSeek开源项目进展至第3/5阶段，推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM，适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能，无复杂依赖，核心代码仅约300行。该库基于CUDA编写，采用即时编译技术(JIT)，支持稠密布局和两种MoE布局。DeepGEMM设计简洁，性能与专家优化库相当，甚至更优。更多信息：

原文链接

幻彩逻辑RainbowLogic

02-26 10:32:32

DeepGEMM

Hopper

开源

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源周Day1：FlashMLA：大家省，才是真的省

DeepSeek开源周启动，首个项目FlashMLA聚焦于优化可变长度序列的推理服务，特别针对英伟达Hopper GPU设计。FlashMLA在H800 SXM5平台上，内存带宽可达3000GB/s，计算性能达580TFLOPS，已获全球开发者广泛关注，GitHub Star数突破5000。 Fla...

原文链接

AI幻想空间站

02-24 22:35:01

FlashMLA

Hopper GPU

MLA

分享至

打开微信扫一扫

内容投诉

生成图片

一文看懂DeepSeek 刚刚开源的FlashMLA，这些细节值得注意

今天，DeepSeek开源项目FlashMLA迅速走红网络，仅数小时便收获超过3.5K Star。FlashMLA是针对Hopper GPU优化的高效MLA（多头潜在注意力）解码内核，支持变长序列处理，现已投入生产。 FlashMLA通过优化MLA解码和分页KV缓存，提高了大语言模型的推理效率，尤其...

原文链接