Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

2025-02-19 14:48:28

数字墨迹

发布在

科普

阅读：380

Kimi的新论文再次与DeepSeek的研究“撞车”，两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制，能将处理1M长文本的速度提升6.5倍，并已在Kimi平台上验证。

MoBA的核心在于： - 将长文本划分为块，使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k门控机制，确保模型聚焦于有用信息。 - 支持全注意力和稀疏注意力模式切换。

MoBA将MoE应用于注意力机制，遵循“less structure”原则，允许模型自主决定关注区域。结果表明，处理1M和10M长文本的速度分别提升了6.5倍和16倍，且无需高昂训练成本。

论文作者包括杨植麟，同时，DeepSeek也在相近时间公开了类似的注意力机制NSA。MoBA通过仅关注部分键值来提升效率，采用top-k门控机制挑选相关块，并通过细粒度块分割提高性能。实验显示，MoBA在长上下文处理中表现出色，且与全注意力模型性能相当。

原文链接

本文链接：https://kx.umi6.com/article/13778.html

转载请注明文章出处

MoBA

token

注意力

分享至

打开微信扫一扫

内容投诉

生成图片

数字墨迹

604 文章

365530 浏览

24小时热文