1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。

原文链接
本文链接:https://kx.umi6.com/article/13982.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024-07-02 15:00:28
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
2025-09-29 19:14:08
谷歌公布 Titans 系列 AI 模型架构:融合长短期记忆与注意力机制、突破 200 万上下文 Token
2025-01-20 20:22:44
DeepSeek新论文再次引发热议,它说了什么?
2025-02-19 16:53:40
梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效
2025-02-18 21:29:43
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
2025-07-07 17:34:43
杨植麟和梁文锋,论文撞车了
2025-02-19 11:47:33
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025-09-29 20:15:06
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2024-12-04 16:39:33
姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA
2025-01-15 17:34:26
前谷歌 AI 研究员:ChatGPT 原本可以更早出现的
2024-11-18 10:21:49
DeepSeek新论文再引热议,梁文锋亲自提交预印本
2025-02-19 16:55:57
DeepSeek新模型上线
2025-09-30 11:25:43
24小时热文
更多
扫一扫体验小程序