1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。

梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。

NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。

NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。

原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
K时评:以讹传讹 DeepSeek向王一博道歉或为“乌龙事件”
2025-07-04 19:49:07
DeepSeek 开源新模型 V3.1:约 685B 参数,上下文长度拓展至 128K
2025-08-20 10:11:16
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
周鸿祎解读DeepSeek更新:中美AI实力已平起平坐
2025-06-09 17:33:29
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
为什么DeepSeek还未能撼动OpenAI
2025-06-04 09:18:31
8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化
2025-09-29 14:08:52
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理
2025-06-18 08:33:43
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
2025-06-13 16:11:09
24小时热文
更多
扫一扫体验小程序