1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。

MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%,V3版本进一步提升了效率。

FlashMLA使用后,H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞,感谢工程团队的努力。

FlashMLA已在GitHub上线,短短一小时Star数超1.2k。该项目支持BF16,采用分页KV缓存,块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。

FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发,后者是用于实现高性能矩阵运算的CUDA抽象集合。

原文链接
本文链接:https://kx.umi6.com/article/14161.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
DeepSeek月访问量超ChatGPT
2025-03-31 12:36:49
DeepSeek流量下滑,这半年梁文锋都干了啥?
2025-07-14 14:22:04
24小时热文
更多
扫一扫体验小程序