DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。
MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%,V3版本进一步提升了效率。
FlashMLA使用后,H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞,感谢工程团队的努力。
FlashMLA已在GitHub上线,短短一小时Star数超1.2k。该项目支持BF16,采用分页KV缓存,块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。
FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发,后者是用于实现高性能矩阵运算的CUDA抽象集合。
原文链接
本文链接:https://kx.umi6.com/article/14161.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
黄仁勋新年第一场演讲提了DeepSeek 推动了整个行业变革
2026-01-06 08:54:05
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
DeepSeek流量下滑,这半年梁文锋都干了啥?
2025-07-14 14:22:04
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
621 文章
400948 浏览
24小时热文
更多
-
2026-01-23 19:11:03 -
2026-01-23 19:08:58 -
2026-01-23 18:11:40