DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。
FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。
FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。
FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。
原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
相关推荐
换一换
六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周杰伦少亏上亿
2025-10-20 17:12:32
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
DeepSeek发布两款新模型
2025-12-01 19:31:03
DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能
2026-02-27 16:53:38
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
deepseek当选网易有道词典2025年度词汇,全年搜索量超867万次
2025-12-01 18:22:41
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
2025-08-09 11:28:33
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
DeepSeek又一论文上新
2026-02-27 15:54:06
智谱创始人唐杰谈 DeepSeek:很震撼,开启了“AI 做事”新范式
2026-01-12 09:23:20
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
822 文章
640618 浏览
24小时热文
更多
-
2026-04-24 17:27:38 -
2026-04-24 17:26:33 -
2026-04-24 17:25:23