1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。

MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了KV缓存需求。V2版本使显存占用降至常用MHA架构的5%-13%,V3版本进一步提升了效率。

FlashMLA使用后,H800能达到3000GB/s内存带宽和580TFLOPS计算性能。网友们纷纷点赞,感谢工程团队的努力。

FlashMLA已在GitHub上线,短短一小时Star数超1.2k。该项目支持BF16,采用分页KV缓存,块大小为64。环境要求包括Hopper GPU、CUDA 12.3及以上版本和PyTorch 2.0及以上版本。

FlashMLA受FlashAttention 2&3和英伟达CUTLASS项目启发,后者是用于实现高性能矩阵运算的CUDA抽象集合。

原文链接
本文链接:https://kx.umi6.com/article/14161.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯在AI上做对了什么?有哪些困境?
2025-05-27 09:15:32
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
奥尔特曼:DeepSeek 团队很有才华,但他们没找到比 OpenAI 更高效的方法
2025-07-21 21:22:47
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
黄仁勋谈中国AI创新:以令人难以置信的速度前进
2025-07-16 17:12:34
DeepSeek会在全球AI竞争中沉沦吗?
2025-06-03 14:57:13
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
英伟达 CEO 黄仁勋:中国的 Deepseek 和阿里通义千问是当前最佳开源模型
2025-05-30 21:55:28
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
24小时热文
更多
扫一扫体验小程序