Mamba核心作者新作:专为推理优化的注意力机制
曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。
这项由普林斯顿大学团队完成的研究包含两大创新:
其一,Grouped-Tied Attention(GTA),与已在Llama 3中应用的GQA性能相当,但KV缓存用量减少约50%。
其二,Grouped Latent Attention(GLA),与DeepSeek使用的MLA质量相近,但解码速度更快,某些情况下比FlashMLA快2倍。
团队总结称,GTA是GQA的良好替代,GLA则是MLA的高效选择。
论文聚焦于通过优化注意力机制的内存使用和计算逻辑,在保持生成质量的同时显著提升推理效率。研究从两个方向改进:提高硬件效率与保持并行可扩展性。
GTA通过分组共享和参数绑定大幅降低KV缓存需求,而GLA则借助潜在层减少KV访问量,同时保持并行性。
实验显示,GTA在中大型模型中优于GQA,GLA则在多种场景下与MLA表现相当。两者在长上下文推理中表现出色,尤其GLA在吞吐量和资源利用上更具优势。
研究者认为,这项工作只是迈向推理“理想”架构的第一步。相关论文已公开,代码也在GitHub上线。
原文链接
本文链接:https://kx.umi6.com/article/19568.html
转载请注明文章出处
相关推荐
换一换
当大模型升级速度变缓,AI Infra 创业还是一门「好生意」吗?
2024-11-09 20:56:00
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026
2026-02-03 23:02:59
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
研究揭示:大语言模型无法真正理解双关语
2025-11-24 18:08:37
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
美团CEO王兴:将继续加大投资开发大语言模型
2025-05-26 21:54:46
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
2024-11-21 14:34:25
742 文章
666410 浏览
24小时热文
更多
-
2026-06-09 00:53:08 -
2026-06-08 23:49:41 -
2026-06-08 21:46:02