1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。在实验中,一个49层的80B MoE模型仅保留5层Full Attention,不仅维持甚至提升了模型能力,还降低了80%的KV Cache存储与计算开销。

HySparse的设计灵感来源于两个关键观察:一是重要token在相邻层之间相对稳定,因此可在某层识别后复用;二是跨层共享KV Cache能显著节省显存且不影响性能。基于此,HySparse将“选择”和“缓存”任务交给Full Attention层完成,而后续Sparse Attention层直接复用其结果,避免了传统方法中的“代理瓶颈”和显存占用问题。

此外,HySparse的稀疏层采用“全局稀疏+局部窗口”的混合结构,分别通过块级稀疏分支和滑动窗口分支实现全局检索与局部建模,并通过轻量门控融合输出。这种设计既保留了全局信息通路,又大幅降低了计算成本。

实验表明,HySparse在7B Dense和80B MoE模型上均表现出色,尤其在激进混合比例下仍能保持长距离信息访问能力,部分任务甚至超越全注意力基线。未来,小米计划进一步验证HySparse在更大规模模型上的潜力,并探索减少Full Attention层的可能性。

arXiv链接:https://arxiv.org/abs/2602.03560

原文链接
本文链接:https://kx.umi6.com/article/32735.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
郭明錤:不存在“压缩KV Cache就能消除内存需求”的逻辑
2026-04-13 08:48:12
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar
2026-03-26 11:53:48
小米MiMo推出HySparse:面向Agent时代的混合稀疏注意力架构
2026-02-09 14:13:10
GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
2026-02-10 16:24:51
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
2025-08-26 14:44:18
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
Kimi新论文:把KVCache玩成新商业模式了
2026-04-19 19:19:25
LG砸重金采购万片英伟达GPU 全速冲刺AI转型
2026-06-07 23:56:41
2026年全国统一高考今天开考:新增AI监考员、智能眼镜带入即作弊
2026-06-07 07:21:05
全球首个!材科源图发布有机高分子应用智能体
2026-06-04 22:24:57
24小时热文
更多
扫一扫体验小程序