DeepSeek于2月24日启动“开源周”,首个开源项目为FlashMLA,这是针对Hopper GPU优化的高效MLA解码内核,适用于处理可变长度序列。FlashMLA灵感源自FlashAttention 2&3和cutlass项目。该项目要求Hopper GPU、CUDA 12.3及以上版本及PyTorch 2.0及以上版本。在CUDA 12.6环境下,H800 SXM5在内存受限配置下能达到3000 GB/s带宽,在计算受限配置下可达580 TFLOPS算力。更多信息可在其GitHub页面获取。
原文链接
本文链接:https://kx.umi6.com/article/14146.html
转载请注明文章出处
相关推荐
.png)
换一换
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
2024-06-07 19:50:16
DeepSeek开源FlashMLA Github瞬间破1000颗星
2025-02-24 12:19:23
一文看懂DeepSeek 刚刚开源的FlashMLA,这些细节值得注意
2025-02-24 14:31:04
436 文章
76225 浏览
24小时热文
更多

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36