1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。

FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。

FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。

FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。

原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
deepseek当选网易有道词典2025年度词汇,全年搜索量超867万次
2025-12-01 18:22:41
不是接入DeepSeek,就叫AI制药
2026-01-17 16:35:32
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
DeepSeek昨天悄悄扔的炸弹,今天爆了
2025-08-22 17:51:00
DeepSeek新模型上线
2025-09-30 11:25:43
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
2025-08-09 11:28:33
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
梁文锋,准备战斗
2025-07-30 17:51:33
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
24小时热文
更多
扫一扫体验小程序