1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。

原文链接
本文链接:https://kx.umi6.com/article/13760.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek开源新版R1 媲美OpenAI最高o3模型
2025-05-29 05:51:14
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
2025-06-03 17:01:06
《流浪地球 3》剧组用上专属 AI 问答应用 WEi:基于 DeepSeek,内部资料高效检索
2025-04-15 12:29:52
24小时热文
更多
扫一扫体验小程序