2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。
原文链接
本文链接:https://kx.umi6.com/article/13760.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek开源新版R1 媲美OpenAI最高o3模型
2025-05-29 05:51:14
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
2025-06-03 17:01:06
《流浪地球 3》剧组用上专属 AI 问答应用 WEi:基于 DeepSeek,内部资料高效检索
2025-04-15 12:29:52
427 文章
61098 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13