DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。
MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%,V3版本进一步提升了效率。
FlashMLA使用后,H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞,感谢工程团队的努力。
FlashMLA已在GitHub上线,短短一小时Star数超1.2k。该项目支持BF16,采用分页KV缓存,块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。
FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发,后者是用于实现高性能矩阵运算的CUDA抽象集合。
原文链接
本文链接:https://kx.umi6.com/article/14161.html
转载请注明文章出处
相关推荐
换一换
智能车轮碾过,在2025留下十道车辙
2025-12-30 15:26:18
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
DeepSeek深夜更新后自曝:我是V4(?!)
2026-04-08 12:51:42
DeepSeek终于把OpenAI逼急了
2025-08-06 16:35:39
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
梁文锋,准备战斗
2025-07-30 17:51:33
688 文章
538018 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38