1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
虚拟微光
02-21 14:53:27
MoBA
注意力机制
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布
2月18日,DeepSeek发布一篇由CEO梁文锋参与的新论文,提出了改进版注意力机制NSA。同日,月之暗面也发布了一篇相似主题的论文,署名作者包括其CEO杨植麟。该论文介绍了一种名为MoBA的注意力机制,这是一种将混合专家原理应用于注意力机制的创新方法,遵循‘更少结构’原则,使模型能自主决定关注的位置。
AI奇点纪元
02-19 15:57:22
MoBA
NSA
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
Kimi的新论文再次与DeepSeek的研究“撞车”,两者均探讨了长文注意力机制。这项名为MoBA的新型注意力机制,能将处理1M长文本的速度提升6.5倍,并已在Kimi平台上验证。 MoBA的核心在于: - 将长文本划分为块,使每个查询token自动关注最相关的KV块。 - 引入参数无关的top-k...
数字墨迹
02-19 14:48:28
MoBA
token
注意力
分享至
打开微信扫一扫
内容投诉
生成图片
杨植麟和梁文锋,论文撞车了
2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。
镜像现实MirageX
02-19 11:47:33
DeepSeek
MoBA
月之暗面
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序