Mamba核心作者新作:专为推理优化的注意力机制
曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。
这项由普林斯顿大学团队完成的研究包含两大创新:
其一,Grouped-Tied Attention(GTA),与已在Llama 3中应用的GQA性能相当,但KV缓存用量减少约50%。
其二,Grouped Latent Attention(GLA),与DeepSeek使用的MLA质量相近,但解码速度更快,某些情况下比FlashMLA快2倍。
团队总结称,GTA是GQA的良好替代,GLA则是MLA的高效选择。
论文聚焦于通过优化注意力机制的内存使用和计算逻辑,在保持生成质量的同时显著提升推理效率。研究从两个方向改进:提高硬件效率与保持并行可扩展性。
GTA通过分组共享和参数绑定大幅降低KV缓存需求,而GLA则借助潜在层减少KV访问量,同时保持并行性。
实验显示,GTA在中大型模型中优于GQA,GLA则在多种场景下与MLA表现相当。两者在长上下文推理中表现出色,尤其GLA在吞吐量和资源利用上更具优势。
研究者认为,这项工作只是迈向推理“理想”架构的第一步。相关论文已公开,代码也在GitHub上线。
原文链接
本文链接:https://kx.umi6.com/article/19568.html
转载请注明文章出处
相关推荐
.png)
换一换
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024-07-02 15:00:28
大语言模型火爆的今天,我们为什么还要拥抱世界模型?
2025-04-10 20:08:01
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
下一代 RAG 技术来了,微软正式开源 GraphRAG:大模型行业将迎来新的升级?
2024-07-04 18:52:32
“给 AI 讲故事”就能绕过安全机制,恶意代码编写门槛恐将大幅降低
2025-03-19 23:56:20
DeepSeek推出NSA 用于超快速的长上下文训练和推理
2025-02-18 17:33:00
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
2024-11-21 14:34:25
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
495 文章
179249 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24