1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9B端侧开源模型跑通百万上下文,面壁智能推出全新稀疏-线性混合注意力架构SALA

近日,面壁智能发布了一种全新的稀疏-线性混合注意力架构SALA(Sparse Attention-Linear Attention),成功让9B参数量的端侧模型在消费级5090显卡上处理百万级上下文。基于该架构的模型MiniCPM-SALA也同步开源,并联合OpenBMB社区、SGLang与NVIDIA发起“2026稀疏算子加速大奖赛(SOAR)”,推动端侧长文本处理能力的进一步突破。

SALA架构:线性与稀疏的高效结合

SALA架构将75%的线性注意力(Lightning Attention)与25%的稀疏注意力(InfLLM v2)相结合,通过混合位置编码HyPE实现两者的协同工作。
- 线性注意力模块:采用Lightning Attention,快速建模全局信息,计算复杂度从传统Transformer的O(N²)降至O(N),同时借助QK-normalization和输出门控机制确保数值稳定性。
- 稀疏注意力模块:使用InfLLM v2精准捕捉关键局部信息,仅计算必要部分,大幅降低计算开销,并支持长短文本无缝切换。
- 混合位置编码HyPE:线性层保留RoPE以维持中短文本性能,稀疏层采用无位置编码(NoPE),避免长距离衰减问题,使模型在超长上下文中仍能高效检索远端信息。

训练方面,MiniCPM-SALA采用HALO方法,将75%的全注意力层转换为线性注意力层,显著降低了显存占用和计算成本,同时保持语义精度领先。

为何需要混合注意力?

传统Transformer的全注意力机制(Full Attention)在处理百万级上下文时面临巨大挑战:计算复杂度飙升至O(N²),显存需求因KV Cache膨胀而迅速耗尽。现有解决方案各有局限:
- 线性注意力:虽高效但易丢失早期信息,导致上下文遗忘。
- 稀疏注意力:精度接近全注意力,但需保存全量KV Cache,部署成本高。
- 状态空间模型:推理效率高,但在长距离精确检索上表现不稳定。

SALA通过线性机制承载大规模上下文,稀疏机制补足关键位置建模,兼顾效率与精度,为端侧长上下文处理提供了一条可行路径。

MiniCPM-SALA的突破

MiniCPM-SALA首次在消费级GPU上实现1M上下文的完整推理,显存占用极低,在256K序列上的推理速度是同尺寸开源模型的2倍以上。即使序列长度提升至512K或1M,模型依然稳定运行,展现出强大的长上下文处理能力。

SOAR大赛:推动技术落地

SOAR大赛聚焦稀疏算子融合与编译优化,目标是在消费级GPU上实现百万Token推理且KV Cache小于6GB。比赛设有70万人民币奖池,鼓励开发者探索端侧长文本处理的新方法。

面壁的目标:端侧智能的未来

面壁智能致力于将通用模型部署到手机、汽车等终端设备。SALA架构的创新使其能够高效处理通讯录、聊天记录等隐私数据,无需依赖云端。随着行业共识转向上下文能力的重要性,面壁正通过开源模型、举办比赛和深耕开发者社区,构建“百万上下文时代个人智能体”的生态主线。

相关链接:
- SOAR大赛:https://soar.openbmb.cn/
- 技术报告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM%20SALA.pdf
- GitHub:https://github.com/openbmb/minicpm

原文链接
本文链接:https://kx.umi6.com/article/32870.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI 的下一个战场:小模型崛起
2025-09-05 21:26:34
9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!
2026-02-11 21:43:22
苹果大模型最新论文:AFM 模型多维度评测「出炉」
2024-08-30 18:58:16
面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能
2025-05-09 13:48:51
大厂做不好的Local Agent为何难?
2025-11-13 08:47:14
面壁发布首个纯端侧智能助手,构建汽车超性能端侧大脑
2025-03-30 15:37:08
韩国一公司用AI开发诊疗平台 可预防心脏病发作
2026-02-09 20:31:21
海格通信加入广东省人工智能与机器人产业联盟
2026-02-10 11:16:17
阿里达摩院开源具身大脑基模:3B激活参数性能超越72B,转身就忘事的机器人有救了
2026-02-10 12:11:39
xAI两位联合创始人辞职
2026-02-11 11:16:50
一块布卡住AI供应链 产业涨价潮带动涨停潮
2026-02-11 19:38:55
香港海关与淘宝天猫香港站签署谅解备忘录
2026-02-11 19:40:00
国产AI大模型杀疯了:不止DS 智谱GLM-5、Minimax 2.5双双发布
2026-02-11 21:44:19
24小时热文
更多
扫一扫体验小程序