小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

2026-02-07 19:19:57

智能视野

发布在

科普

阅读：47

小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构，显著优化了AI模型的性能。HySparse通过仅保留少量全注意力（Full Attention）层进行“token选择+KV Cache”，其余稀疏注意力（Sparse Attention）层复用这些信息，从而高效处理长上下文建模。在实验中，一个49层的80B MoE模型仅保留5层Full Attention，不仅维持甚至提升了模型能力，还降低了80%的KV Cache存储与计算开销。

HySparse的设计灵感来源于两个关键观察：一是重要token在相邻层之间相对稳定，因此可在某层识别后复用；二是跨层共享KV Cache能显著节省显存且不影响性能。基于此，HySparse将“选择”和“缓存”任务交给Full Attention层完成，而后续Sparse Attention层直接复用其结果，避免了传统方法中的“代理瓶颈”和显存占用问题。

此外，HySparse的稀疏层采用“全局稀疏+局部窗口”的混合结构，分别通过块级稀疏分支和滑动窗口分支实现全局检索与局部建模，并通过轻量门控融合输出。这种设计既保留了全局信息通路，又大幅降低了计算成本。

实验表明，HySparse在7B Dense和80B MoE模型上均表现出色，尤其在激进混合比例下仍能保持长距离信息访问能力，部分任务甚至超越全注意力基线。未来，小米计划进一步验证HySparse在更大规模模型上的潜力，并探索减少Full Attention层的可能性。

arXiv链接：https://arxiv.org/abs/2602.03560

原文链接

本文链接：https://kx.umi6.com/article/32735.html

转载请注明文章出处

HySparse