1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。

梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。

NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。

NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。

原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
梁文锋出资200亿!DeepSeek首轮创纪录融资500亿,V4.1定档6月
2026-05-09 11:07:00
DeepSeek上线识图模式
2026-04-29 18:38:04
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
谁是手机里最值得留的AI?DeepSeek排第一 豆包第二
2026-05-26 23:57:37
QuestMobile 报告:豆包月活超越 DeepSeek,夺 8 月中国原生 AI App 月活第一
2025-09-16 18:17:35
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员36小时中国AI行
2026-05-08 13:17:18
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
24小时热文
更多
扫一扫体验小程序