2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
原文链接
本文链接:https://kx.umi6.com/article/13982.html
转载请注明文章出处
相关推荐
.png)
换一换
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
2025-07-07 17:34:43
DeepSeek新发布
2025-09-29 22:15:21
DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2025-02-18 17:24:09
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
2025-09-29 19:14:08
DeepSeek新模型上线
2025-09-30 11:25:43
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024-07-02 15:00:28
梁文锋参与著作!DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效
2025-02-18 21:29:43
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
2025-02-24 14:32:24
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
拆分Transformer注意力,韩国人要给大模型“踩油门”
2024-07-02 20:53:35
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
529 文章
259528 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29