DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。
FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。
FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。
FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。
原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek们越来越聪明,却也越来越不听话了
2025-05-20 22:46:53
DeepSeek开源新版R1 媲美OpenAI最高o3模型
2025-05-29 05:51:14
DeepSeek R1 模型完成小版本试升级
2025-05-28 21:25:08
9个DeepSeek隐藏技巧,让打工人效率翻倍
2025-05-08 09:27:04
被AI「摩擦」的十天:一个普通人的上手记
2025-08-16 18:28:03
罕见千万级大单:山西临汾将打造“AI 医院”,部署 DeepSeek
2025-06-25 17:31:56
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
证监会主席吴清:全球科技创新进入密集活跃期 诸多领域都迎来了Deepseek
2025-06-18 11:39:02
别太相信DeepSeek
2025-08-14 18:02:41
好险,差点被DeepSeek幻觉害死
2025-07-09 15:08:10
DeepSeek数月来首次在领英上发布招聘信息
2025-07-04 14:48:41
DeepSeek V3.1突现离谱Bug:“极”字满屏乱蹦,开发者一脸懵逼
2025-08-26 14:46:26
阿里千问与DeepSeek入选全球AI开源贡献榜前十
2025-06-12 18:42:16
606 文章
192452 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37