DeepSeek突破H800性能上限，FlashMLA重磅开源，算力成本还能降

2025-02-24 12:18:19

电子诗篇

发布在

科普

阅读：306

DeepSeek开源周第一天，推出了降本利器FlashMLA，突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核，针对可变长度序列进行优化，现已投入生产。

MLA由DeepSeek提出，通过低秩联合压缩技术，将多头注意力的键和值矩阵投影到低维空间，显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%，V3版本进一步提升了效率。

FlashMLA使用后，H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞，感谢工程团队的努力。

FlashMLA已在GitHub上线，短短一小时Star数超1.2k。该项目支持BF16，采用分页KV缓存，块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。

FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发，后者是用于实现高性能矩阵运算的CUDA抽象集合。

原文链接

本文链接：https://kx.umi6.com/article/14161.html

转载请注明文章出处

DeepSeek

FlashMLA

H800

分享至

打开微信扫一扫

内容投诉

生成图片

电子诗篇

524 文章

242322 浏览

24小时热文