DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。
MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%,V3版本进一步提升了效率。
FlashMLA使用后,H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞,感谢工程团队的努力。
FlashMLA已在GitHub上线,短短一小时Star数超1.2k。该项目支持BF16,采用分页KV缓存,块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。
FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发,后者是用于实现高性能矩阵运算的CUDA抽象集合。
原文链接
本文链接:https://kx.umi6.com/article/14161.html
转载请注明文章出处
相关推荐
换一换
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek启动首次外部融资?最新消息来了
2026-04-18 22:26:47
DeepSeek发布Agent Harness相关岗位 或推智能体产品
2026-05-20 16:47:33
DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳
2026-05-21 18:58:24
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
大厂抢郭达雅进行时!DeepSeek核心成员还是个“综艺巨佬”
2026-03-22 15:52:37
DeepSeek据悉拟募资最高500亿元人民币
2026-05-08 21:41:39
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek大量招人,该梁文锋上场了
2026-01-16 15:41:13
性能至少翻倍 DeepSeek官宣支持下一代国产AI芯片
2025-08-21 19:40:24
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
梁文锋,Nature全球年度十大科学人物!
2025-12-09 10:25:17
717 文章
634325 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41