1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9B端侧开源模型跑通百万上下文,面壁智能推出全新稀疏-线性混合注意力架构SALA

近日,面壁智能发布了一种全新的稀疏-线性混合注意力架构SALA(Sparse Attention-Linear Attention),成功让9B参数量的端侧模型在消费级5090显卡上处理百万级上下文。基于该架构的模型MiniCPM-SALA也同步开源,并联合OpenBMB社区、SGLang与NVIDIA发起“2026稀疏算子加速大奖赛(SOAR)”,推动端侧长文本处理能力的进一步突破。

SALA架构:线性与稀疏的高效结合

SALA架构将75%的线性注意力(Lightning Attention)与25%的稀疏注意力(InfLLM v2)相结合,通过混合位置编码HyPE实现两者的协同工作。
- 线性注意力模块:采用Lightning Attention,快速建模全局信息,计算复杂度从传统Transformer的O(N²)降至O(N),同时借助QK-normalization和输出门控机制确保数值稳定性。
- 稀疏注意力模块:使用InfLLM v2精准捕捉关键局部信息,仅计算必要部分,大幅降低计算开销,并支持长短文本无缝切换。
- 混合位置编码HyPE:线性层保留RoPE以维持中短文本性能,稀疏层采用无位置编码(NoPE),避免长距离衰减问题,使模型在超长上下文中仍能高效检索远端信息。

训练方面,MiniCPM-SALA采用HALO方法,将75%的全注意力层转换为线性注意力层,显著降低了显存占用和计算成本,同时保持语义精度领先。

为何需要混合注意力?

传统Transformer的全注意力机制(Full Attention)在处理百万级上下文时面临巨大挑战:计算复杂度飙升至O(N²),显存需求因KV Cache膨胀而迅速耗尽。现有解决方案各有局限:
- 线性注意力:虽高效但易丢失早期信息,导致上下文遗忘。
- 稀疏注意力:精度接近全注意力,但需保存全量KV Cache,部署成本高。
- 状态空间模型:推理效率高,但在长距离精确检索上表现不稳定。

SALA通过线性机制承载大规模上下文,稀疏机制补足关键位置建模,兼顾效率与精度,为端侧长上下文处理提供了一条可行路径。

MiniCPM-SALA的突破

MiniCPM-SALA首次在消费级GPU上实现1M上下文的完整推理,显存占用极低,在256K序列上的推理速度是同尺寸开源模型的2倍以上。即使序列长度提升至512K或1M,模型依然稳定运行,展现出强大的长上下文处理能力。

SOAR大赛:推动技术落地

SOAR大赛聚焦稀疏算子融合与编译优化,目标是在消费级GPU上实现百万Token推理且KV Cache小于6GB。比赛设有70万人民币奖池,鼓励开发者探索端侧长文本处理的新方法。

面壁的目标:端侧智能的未来

面壁智能致力于将通用模型部署到手机、汽车等终端设备。SALA架构的创新使其能够高效处理通讯录、聊天记录等隐私数据,无需依赖云端。随着行业共识转向上下文能力的重要性,面壁正通过开源模型、举办比赛和深耕开发者社区,构建“百万上下文时代个人智能体”的生态主线。

相关链接:
- SOAR大赛:https://soar.openbmb.cn/
- 技术报告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM%20SALA.pdf
- GitHub:https://github.com/openbmb/minicpm

原文链接
本文链接:https://kx.umi6.com/article/32870.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果大模型最新论文:AFM 模型多维度评测「出炉」
2024-08-30 18:58:16
面壁发布首个纯端侧智能助手,构建汽车超性能端侧大脑
2025-03-30 15:37:08
大厂做不好的Local Agent为何难?
2025-11-13 08:47:14
面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能
2025-05-09 13:48:51
AI 的下一个战场:小模型崛起
2025-09-05 21:26:34
昇腾超节点系列产品全面支持DeepSeek V4新模型
2026-04-24 13:15:05
英特尔CEO:半导体行业整体潜在市场规模已逼近1万亿美元
2026-04-24 12:11:28
RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
2026-04-24 14:15:34
Gartner:阿里云稳居中国第一 份额扩大至32.8%
2026-04-24 12:09:17
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23 23:34:55
腾讯与阿里巴巴洽谈投资DeepSeek 估值超过200亿美元
2026-04-22 19:27:03
谷歌云AI使用量达到每分钟160亿Tokens
2026-04-22 21:29:40
报道称中国AI模型已成为全球最受欢迎开源解决方案
2026-04-22 21:31:52
24小时热文
更多
扫一扫体验小程序