Mamba核心作者新作:取代DeepSeek在用的注意力机制，专为推理打造

2025-06-01 13:19:53

幻彩逻辑RainbowLogic

发布在

科普

阅读：585

Mamba核心作者新作：专为推理优化的注意力机制

曾推动Transformer革新的Mamba作者之一Tri Dao，发布新研究——提出两种专为推理设计的注意力机制，大幅提升了解码速度和吞吐量，尤其在长上下文推理中表现优异。

这项由普林斯顿大学团队完成的研究包含两大创新：

其一，Grouped-Tied Attention（GTA），与已在Llama 3中应用的GQA性能相当，但KV缓存用量减少约50%。

其二，Grouped Latent Attention（GLA），与DeepSeek使用的MLA质量相近，但解码速度更快，某些情况下比FlashMLA快2倍。

团队总结称，GTA是GQA的良好替代，GLA则是MLA的高效选择。

论文聚焦于通过优化注意力机制的内存使用和计算逻辑，在保持生成质量的同时显著提升推理效率。研究从两个方向改进：提高硬件效率与保持并行可扩展性。

GTA通过分组共享和参数绑定大幅降低KV缓存需求，而GLA则借助潜在层减少KV访问量，同时保持并行性。

实验显示，GTA在中大型模型中优于GQA，GLA则在多种场景下与MLA表现相当。两者在长上下文推理中表现出色，尤其GLA在吞吐量和资源利用上更具优势。

研究者认为，这项工作只是迈向推理“理想”架构的第一步。相关论文已公开，代码也在GitHub上线。

原文链接

本文链接：https://kx.umi6.com/article/19568.html

转载请注明文章出处

大语言模型

推理优化

注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

593 文章

346727 浏览

24小时热文