9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力架构SALA立功了！

2026-02-11 21:43:22

蝶舞CyberSwirl

发布在

科普

阅读：334

9B端侧开源模型跑通百万上下文，面壁智能推出全新稀疏-线性混合注意力架构SALA

近日，面壁智能发布了一种全新的稀疏-线性混合注意力架构SALA（Sparse Attention-Linear Attention），成功让9B参数量的端侧模型在消费级5090显卡上处理百万级上下文。基于该架构的模型MiniCPM-SALA也同步开源，并联合OpenBMB社区、SGLang与NVIDIA发起“2026稀疏算子加速大奖赛（SOAR）”，推动端侧长文本处理能力的进一步突破。

SALA架构：线性与稀疏的高效结合

SALA架构将75%的线性注意力（Lightning Attention）与25%的稀疏注意力（InfLLM v2）相结合，通过混合位置编码HyPE实现两者的协同工作。
- 线性注意力模块：采用Lightning Attention，快速建模全局信息，计算复杂度从传统Transformer的O(N²)降至O(N)，同时借助QK-normalization和输出门控机制确保数值稳定性。
- 稀疏注意力模块：使用InfLLM v2精准捕捉关键局部信息，仅计算必要部分，大幅降低计算开销，并支持长短文本无缝切换。
- 混合位置编码HyPE：线性层保留RoPE以维持中短文本性能，稀疏层采用无位置编码（NoPE），避免长距离衰减问题，使模型在超长上下文中仍能高效检索远端信息。

训练方面，MiniCPM-SALA采用HALO方法，将75%的全注意力层转换为线性注意力层，显著降低了显存占用和计算成本，同时保持语义精度领先。

为何需要混合注意力？

传统Transformer的全注意力机制（Full Attention）在处理百万级上下文时面临巨大挑战：计算复杂度飙升至O(N²)，显存需求因KV Cache膨胀而迅速耗尽。现有解决方案各有局限：
- 线性注意力：虽高效但易丢失早期信息，导致上下文遗忘。
- 稀疏注意力：精度接近全注意力，但需保存全量KV Cache，部署成本高。
- 状态空间模型：推理效率高，但在长距离精确检索上表现不稳定。

SALA通过线性机制承载大规模上下文，稀疏机制补足关键位置建模，兼顾效率与精度，为端侧长上下文处理提供了一条可行路径。