MoBA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

2月18日，Kimi和DeepSeek发布新进展，分别推出MoBA和NSA，两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战，称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整，最终在2024年初稳定下来，成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中，并在GitHub上开源。尽管初期在长文任务中表现不佳，但通过调整，MoBA最终成功上线服务用户。

原文链接

虚拟微光

02-21 14:53:27

MoBA

注意力机制

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布

2月18日，DeepSeek发布一篇由CEO梁文锋参与的新论文，提出了改进版注意力机制NSA。同日，月之暗面也发布了一篇相似主题的论文，署名作者包括其CEO杨植麟。该论文介绍了一种名为MoBA的注意力机制，这是一种将混合专家原理应用于注意力机制的创新方法，遵循‘更少结构’原则，使模型能自主决定关注的位置。

原文链接

AI奇点纪元

02-19 15:57:22

MoBA

NSA

注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

Kimi的新论文再次与DeepSeek的研究“撞车”，两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制，能将处理1M长文本的速度提升6.5倍，并已在Kimi平台上验证。 MoBA的核心在于： - 将长文本划分为块，使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k...

原文链接

数字墨迹

02-19 14:48:28

MoBA

token

注意力

分享至

打开微信扫一扫

内容投诉

生成图片

杨植麟和梁文锋，论文撞车了

2月18日，DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍，而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究，显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势，也为理解强化学习和高效长文本处理提供了新视角。

原文链接