DeepSeek开源周观察：让所有人都能用起来R1

2025-02-24 20:34:11

阿达旻

发布在

科普

阅读：771

DeepSeek已成为全球开源圈的领头羊。近日，“开源周”活动首发了FlashMLA，这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。

FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题，通过深度优化Kernel，提升内存带宽利用率和计算效率。在H800 SXM5 GPU上，FlashMLA实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能，大幅提升了大模型推理速度。它支持BF16混合精度运算，并采用64块大小的分页KV缓存技术，减少冗余计算和显存浪费。设计灵感来自FlashAttention 2&3及CUTLASS项目，结合了先进的注意力机制优化策略。

FlashMLA已在GitHub上开源，安装简便，受到广泛关注。DeepSeek致力于通过开源模型推动AGI发展，不仅开源了模型和解释技术，还优化了成本，使其达到16人民币/百万Token。这将进一步利好下游应用，不仅提供高水准模型，还优化了成本。

FlashMLA完全基于Nvidia GPU进行优化，开箱即用。短期内将促进DeepSeek模型在Nvidia GPU上的部署和落地，增加对Nvidia的需求。期待DeepSeek未来四天带来更多惊喜。

原文链接

本文链接：https://kx.umi6.com/article/14209.html

转载请注明文章出处

DeepSeek