9B端侧开源模型跑通百万上下文,面壁智能推出全新稀疏-线性混合注意力架构SALA
近日,面壁智能发布了一种全新的稀疏-线性混合注意力架构SALA(Sparse Attention-Linear Attention),成功让9B参数量的端侧模型在消费级5090显卡上处理百万级上下文。基于该架构的模型MiniCPM-SALA也同步开源,并联合OpenBMB社区、SGLang与NVIDIA发起“2026稀疏算子加速大奖赛(SOAR)”,推动端侧长文本处理能力的进一步突破。
SALA架构:线性与稀疏的高效结合
SALA架构将75%的线性注意力(Lightning Attention)与25%的稀疏注意力(InfLLM v2)相结合,通过混合位置编码HyPE实现两者的协同工作。
- 线性注意力模块:采用Lightning Attention,快速建模全局信息,计算复杂度从传统Transformer的O(N²)降至O(N),同时借助QK-normalization和输出门控机制确保数值稳定性。
- 稀疏注意力模块:使用InfLLM v2精准捕捉关键局部信息,仅计算必要部分,大幅降低计算开销,并支持长短文本无缝切换。
- 混合位置编码HyPE:线性层保留RoPE以维持中短文本性能,稀疏层采用无位置编码(NoPE),避免长距离衰减问题,使模型在超长上下文中仍能高效检索远端信息。
训练方面,MiniCPM-SALA采用HALO方法,将75%的全注意力层转换为线性注意力层,显著降低了显存占用和计算成本,同时保持语义精度领先。
为何需要混合注意力?
传统Transformer的全注意力机制(Full Attention)在处理百万级上下文时面临巨大挑战:计算复杂度飙升至O(N²),显存需求因KV Cache膨胀而迅速耗尽。现有解决方案各有局限:
- 线性注意力:虽高效但易丢失早期信息,导致上下文遗忘。
- 稀疏注意力:精度接近全注意力,但需保存全量KV Cache,部署成本高。
- 状态空间模型:推理效率高,但在长距离精确检索上表现不稳定。
SALA通过线性机制承载大规模上下文,稀疏机制补足关键位置建模,兼顾效率与精度,为端侧长上下文处理提供了一条可行路径。
MiniCPM-SALA的突破
MiniCPM-SALA首次在消费级GPU上实现1M上下文的完整推理,显存占用极低,在256K序列上的推理速度是同尺寸开源模型的2倍以上。即使序列长度提升至512K或1M,模型依然稳定运行,展现出强大的长上下文处理能力。
SOAR大赛:推动技术落地
SOAR大赛聚焦稀疏算子融合与编译优化,目标是在消费级GPU上实现百万Token推理且KV Cache小于6GB。比赛设有70万人民币奖池,鼓励开发者探索端侧长文本处理的新方法。
面壁的目标:端侧智能的未来
面壁智能致力于将通用模型部署到手机、汽车等终端设备。SALA架构的创新使其能够高效处理通讯录、聊天记录等隐私数据,无需依赖云端。随着行业共识转向上下文能力的重要性,面壁正通过开源模型、举办比赛和深耕开发者社区,构建“百万上下文时代个人智能体”的生态主线。
相关链接:
- SOAR大赛:https://soar.openbmb.cn/
- 技术报告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM%20SALA.pdf
- GitHub:https://github.com/openbmb/minicpm
-
2026-02-12 08:10:02 -
2026-02-12 08:09:57 -
2026-02-12 00:52:03