1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。在实验中,一个49层的80B MoE模型仅保留5层Full Attention,不仅维持甚至提升了模型能力,还降低了80%的KV Cache存储与计算开销。

HySparse的设计灵感来源于两个关键观察:一是重要token在相邻层之间相对稳定,因此可在某层识别后复用;二是跨层共享KV Cache能显著节省显存且不影响性能。基于此,HySparse将“选择”和“缓存”任务交给Full Attention层完成,而后续Sparse Attention层直接复用其结果,避免了传统方法中的“代理瓶颈”和显存占用问题。

此外,HySparse的稀疏层采用“全局稀疏+局部窗口”的混合结构,分别通过块级稀疏分支和滑动窗口分支实现全局检索与局部建模,并通过轻量门控融合输出。这种设计既保留了全局信息通路,又大幅降低了计算成本。

实验表明,HySparse在7B Dense和80B MoE模型上均表现出色,尤其在激进混合比例下仍能保持长距离信息访问能力,部分任务甚至超越全注意力基线。未来,小米计划进一步验证HySparse在更大规模模型上的潜力,并探索减少Full Attention层的可能性。

arXiv链接:https://arxiv.org/abs/2602.03560

原文链接
本文链接:https://kx.umi6.com/article/32735.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力
2026-02-10 16:24:51
小米MiMo推出HySparse:面向Agent时代的混合稀疏注意力架构
2026-02-09 14:13:10
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar
2026-03-26 11:53:48
R2还没来,但DeepSeek的秘密武器已经“剧透”了
2025-08-01 09:10:49
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
2025-08-26 14:44:18
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
2026-02-06 20:12:11
科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆
2026-04-22 21:27:36
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
真有人做AI小猫啊?!生产力和情绪价值都拉满了
2026-04-24 17:21:57
信息发展新设子公司 含AI及卫星相关业务
2026-04-24 14:17:44
24小时热文
更多
扫一扫体验小程序