美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

2026-01-13 13:35:04

数码游侠

发布在

科普

阅读：974

美团龙猫LongCat系列推出全新稀疏注意力机制LoZA（LongCat ZigZag Attention），显著提升长文本处理能力。新技术将上下文窗口扩展至1M，解码速度比之前快10倍，且在256K文本预加载时提速超50%。

全注意力机制因平方级计算复杂度（O(L²)）难以高效处理长文本。LoZA通过“只算关键部分”优化这一瓶颈。具体方法是：先为多头潜在注意力模块（MLA）引入可学习权重α，筛选出对性能影响较小的模块；然后将其中50%低性能模块替换为线性复杂度（O(L·S)）的流式稀疏注意力（SSA）。这种交错结构被称为ZigZag，既保留模型理解能力，又大幅降低计算成本。

此外，LoZA设计了1024Token稀疏窗口，包含1个全局块和7个局部块，分别负责整体关联与局部细节。改造无需从头训练，可在中期完成，成本较低。测试显示，LoZA在速度和性能上均表现出色：处理128K上下文时解码速度快10倍；256K上下文预加载提速50%，后续解码节省30%算力，硬件效率翻倍。同时，其性能未因简化缩水，在回答问题、写代码等任务中与原版持平，长文本任务表现更优，甚至超越Qwen-3模型。

未来，团队计划让LoZA支持动态稀疏比例，根据场景自动调整全注意力与稀疏模块比例，并探索多模态应用。论文地址：https://www.alphaxiv.org/abs/2512.23966

原文链接

本文链接：https://kx.umi6.com/article/31552.html

转载请注明文章出处

LoZA稀疏注意力机制