DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。
FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。
FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。
FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。
原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
相关推荐
换一换
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
DeepSeek上线识图模式
2026-04-29 18:38:04
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram
2026-01-13 09:25:44
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万
2025-09-18 13:51:50
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时
2026-05-27 10:20:09
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
DeepSeek启动首次外部融资?最新消息来了
2026-04-18 22:26:47
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
845 文章
737731 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41