1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。

FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。它支持BF16混合精度运算,并采用64块大小的分页KV缓存技术,减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目,结合了先进的注意力机制优化策略。

FlashMLA已在GitHub上开源,安装简便,受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展,不仅开源了模型和解释技术,还优化了成本,使其达到16人民币/百万Token。这将进一步利好下游应用,不仅提供高水准模型,还优化了成本。

FlashMLA完全基于Nvidia GPU进行优化,开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地,增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。

原文链接
本文链接:https://kx.umi6.com/article/14209.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
郑州:深化与DeepSeek等人工智能头部企业的合作
2025-06-24 20:22:15
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
朱民:未来18个月 中国将出现超百项“DeepSeek式突破”
2025-06-26 17:25:26
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
2025-08-09 11:28:33
DeepSeek流量下滑,这半年梁文锋都干了啥?
2025-07-14 14:22:04
梁文锋等来及时雨
2025-07-15 17:50:04
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
当DeepSeek都认为“DeepSeek向王一博道歉”了
2025-07-04 12:43:36
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
周鸿祎解读DeepSeek更新:中美AI实力已平起平坐
2025-06-09 17:33:29
24小时热文
更多
扫一扫体验小程序