1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Mamba核心作者新作:专为推理优化的注意力机制

曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。

这项由普林斯顿大学团队完成的研究包含两大创新:

其一,Grouped-Tied Attention(GTA),与已在Llama 3中应用的GQA性能相当,但KV缓存用量减少约50%。

其二,Grouped Latent Attention(GLA),与DeepSeek使用的MLA质量相近,但解码速度更快,某些情况下比FlashMLA快2倍。

团队总结称,GTA是GQA的良好替代,GLA则是MLA的高效选择。

论文聚焦于通过优化注意力机制的内存使用和计算逻辑,在保持生成质量的同时显著提升推理效率。研究从两个方向改进:提高硬件效率与保持并行可扩展性。

GTA通过分组共享和参数绑定大幅降低KV缓存需求,而GLA则借助潜在层减少KV访问量,同时保持并行性。

实验显示,GTA在中大型模型中优于GQA,GLA则在多种场景下与MLA表现相当。两者在长上下文推理中表现出色,尤其GLA在吞吐量和资源利用上更具优势。

研究者认为,这项工作只是迈向推理“理想”架构的第一步。相关论文已公开,代码也在GitHub上线。

原文链接
本文链接:https://kx.umi6.com/article/19568.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大语言模型会推理吗?
2024-11-13 11:33:40
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
海洋领域首个业务化垂直领域大语言模型“瀚海智语”发布:基于 360 智脑和 DeepSeek 开发
2025-03-24 16:09:30
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
2025-10-13 18:02:32
原微软WizardLM项目团队加入腾讯混元
2025-05-14 15:18:55
当 AI 下场炒 A 股,「推理」成了新的直觉
2025-10-28 12:51:59
AI模拟社会的“幕后”操控者是谁?
2025-01-21 14:39:42
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
24小时热文
更多
扫一扫体验小程序