Kimi的新论文再次与DeepSeek的研究“撞车”,两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制,能将处理1M长文本的速度提升6.5倍,并已在Kimi平台上验证。
MoBA的核心在于: - 将长文本划分为块,使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k门控机制,确保模型聚焦于有用信息。 - 支持全注意力和稀疏注意力模式切换。
MoBA将MoE应用于注意力机制,遵循“less structure”原则,允许模型自主决定关注区域。结果表明,处理1M和10M长文本的速度分别提升了6.5倍和16倍,且无需高昂训练成本。
论文作者包括杨植麟,同时,DeepSeek也在相近时间公开了类似的注意力机制NSA。MoBA通过仅关注部分键值来提升效率,采用top-k门控机制挑选相关块,并通过细粒度块分割提高性能。实验显示,MoBA在长上下文处理中表现出色,且与全注意力模型性能相当。
原文链接
本文链接:https://kx.umi6.com/article/13778.html
转载请注明文章出处
相关推荐
换一换
高管一个月烧20亿Token自称惭愧:每月至少花100块给AI“交水电费”
2026-05-10 19:24:32
AI费用太高 黄仁勋回应:浪费点钱没关系但别浪费时间
2026-05-28 16:32:13
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
“Token”这个词的搜索量最高一天达到7.7万次 比去年日均搜索量高出1850%
2026-03-28 20:15:44
Token一词该怎么翻译!清华教授提议中文名为模元
2026-03-20 16:48:30
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布
2025-02-19 15:57:22
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
Meta员工空转AI只为浪费token!烧的多挣的多,日均消耗2万亿
2026-04-07 18:08:22
字节Seed:大概念模型来了,推理的何必是下一个token
2026-01-05 13:02:57
杨植麟和梁文锋,论文撞车了
2025-02-19 11:47:33
清程极智:Token成为AI时代的 “水电煤”,中国AI产业从能用迈向好用
2026-05-28 12:21:43
728 文章
648496 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41