2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。
原文链接
本文链接:https://kx.umi6.com/article/13760.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
阿里千问与DeepSeek入选全球AI开源贡献榜前十
2025-06-12 18:42:16
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
周鸿祎解读DeepSeek更新:中美AI实力已平起平坐
2025-06-09 17:33:29
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
六大AI模型被扔进加密市场厮杀,DeepSeek暂为交易之王
2025-10-20 18:12:39
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖
2025-08-01 17:03:23
528 文章
241067 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35