小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。在实验中,一个49层的80B MoE模型仅保留5层Full Attention,不仅维持甚至提升了模型能力,还降低了80%的KV Cache存储与计算开销。
HySparse的设计灵感来源于两个关键观察:一是重要token在相邻层之间相对稳定,因此可在某层识别后复用;二是跨层共享KV Cache能显著节省显存且不影响性能。基于此,HySparse将“选择”和“缓存”任务交给Full Attention层完成,而后续Sparse Attention层直接复用其结果,避免了传统方法中的“代理瓶颈”和显存占用问题。
此外,HySparse的稀疏层采用“全局稀疏+局部窗口”的混合结构,分别通过块级稀疏分支和滑动窗口分支实现全局检索与局部建模,并通过轻量门控融合输出。这种设计既保留了全局信息通路,又大幅降低了计算成本。
实验表明,HySparse在7B Dense和80B MoE模型上均表现出色,尤其在激进混合比例下仍能保持长距离信息访问能力,部分任务甚至超越全注意力基线。未来,小米计划进一步验证HySparse在更大规模模型上的潜力,并探索减少Full Attention层的可能性。
arXiv链接:https://arxiv.org/abs/2602.03560
原文链接
本文链接:https://kx.umi6.com/article/32735.html
转载请注明文章出处
相关推荐
换一换
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
2026-02-07 19:19:57
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
2025-08-26 14:44:18
腾讯宣布春节红包新玩法,元宝派将启动红包掉落活动
2026-02-07 10:10:09
面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
2026-02-06 02:20:25
Anthropic发布擅长金融研究的新人工智能模型 金融服务股应声下跌
2026-02-06 03:31:07
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
Claude豪掷千万在美国春晚开撕OpenAI 奥特曼回击:伪君子
2026-02-05 20:09:29
寒武纪怎么了?
2026-02-06 03:26:41
中兴通讯、工行建行AIC入局 粤港澳基金完成500亿募资
2026-02-07 19:20:59
农业农村部:加强人工智能在农业农村领域应用 拓展无人机、物联网、机器人等应用场景
2026-02-06 08:42:15
660 文章
431155 浏览
24小时热文
更多
-
2026-02-07 20:23:14 -
2026-02-07 20:22:16 -
2026-02-07 19:20:59