1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Kimi的新论文再次与DeepSeek的研究“撞车”,两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制,能将处理1M长文本的速度提升6.5倍,并已在Kimi平台上验证。

MoBA的核心在于: - 将长文本划分为块,使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k门控机制,确保模型聚焦于有用信息。 - 支持全注意力和稀疏注意力模式切换。

MoBA将MoE应用于注意力机制,遵循“less structure”原则,允许模型自主决定关注区域。结果表明,处理1M和10M长文本的速度分别提升了6.5倍和16倍,且无需高昂训练成本。

论文作者包括杨植麟,同时,DeepSeek也在相近时间公开了类似的注意力机制NSA。MoBA通过仅关注部分键值来提升效率,采用top-k门控机制挑选相关块,并通过细粒度块分割提高性能。实验显示,MoBA在长上下文处理中表现出色,且与全注意力模型性能相当。

原文链接
本文链接:https://kx.umi6.com/article/13778.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
杨植麟和梁文锋,论文撞车了
2025-02-19 11:47:33
时隔19天 DeepSeek重新开放API充值:曾因资源紧张暂停充值
2025-02-25 16:04:03
24小时热文
更多
扫一扫体验小程序