DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。
FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。
FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。
FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。
原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
相关推荐
换一换
K时评:以讹传讹 DeepSeek向王一博道歉或为“乌龙事件”
2025-07-04 19:49:07
证监会主席吴清:全球科技创新进入密集活跃期 诸多领域都迎来了Deepseek
2025-06-18 11:39:02
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
调查 | 爆火仅半年,DeepSeek在银行业已“泯然众模型”?三大障碍成为拦路虎
2025-08-04 11:56:14
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
2025-06-13 16:11:09
六大AI模型被扔进加密市场厮杀,DeepSeek暂为交易之王
2025-10-20 18:12:39
罗永浩:新AI产品3个月后见 DeepSeek创始人建议我“靠嘴吃饭”
2025-06-22 11:15:34
DeepSeek会在全球AI竞争中沉沦吗?
2025-06-03 14:57:13
网友称“Deepseek演都不演了”:输入手机内存不够“二选一删谁” 秒回答豆包
2025-08-20 17:26:16
别太相信DeepSeek
2025-08-14 18:02:41
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
702 文章
402414 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42