1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。

梁文锋亲自参与并提交了这篇论文,显示出他对新成果的重视。DeepSeek填补了现有稀疏注意力机制的不足,特别是针对长上下文建模和复杂推理的需求。传统注意力机制在长序列下运行缓慢,NSA通过选择性计算关键query-key对,大幅降低了计算开销,提升了模型性能。

NSA支持端到端训练,结合硬件优化,实现了显著的速度提升。此外,新研究通过Triton开发了与硬件高度兼容的稀疏注意力内核。测试显示,NSA在多个基准测试中表现优异,尤其是在长文本和思维链推理任务中。

NSA还验证了两年前清华大学姚班的一项结论,即在处理复杂数学问题时,减少tokens数量可以提高准确性和效率。DeepSeek未来可能继续优化模型在长文本和代码库分析中的表现,以提升其推理能力和实用性。

原文链接
本文链接:https://kx.umi6.com/article/14177.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
罗福莉加入小米后首秀,解释 MiMo-V2-Flash 模型如何做到推理速度飞快
2025-12-17 11:39:04
全球 6 大顶级 AI 实盘厮杀,Deepseek 三天收益爆赚 36% 傲视群雄
2025-10-22 08:40:07
梁文锋,准备战斗
2025-07-30 17:51:33
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
美称中国一人工智能企业违反美出口管制 外交部:中方已多次表明原则立场
2026-02-24 15:53:46
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
网友称“Deepseek演都不演了”:输入手机内存不够“二选一删谁” 秒回答豆包
2025-08-20 17:26:16
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
DeepSeek大量招人,该梁文锋上场了
2026-01-16 15:41:13
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
DeepSeek V3.1突现离谱Bug:“极”字满屏乱蹦,开发者一脸懵逼
2025-08-26 14:46:26
智谱创始人唐杰谈 DeepSeek:很震撼,开启了“AI 做事”新范式
2026-01-12 09:23:20
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万
2025-09-18 13:51:50
24小时热文
更多
扫一扫体验小程序