2025年7月31日,DeepSeek团队在ACL 2025上荣获最佳论文奖。梁文锋作为通讯作者,与北京大学联合发表的论文提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,使长文本处理速度提升11倍,且性能超越传统全注意力模型。论文一作袁境阳透露,该技术可将上下文扩展至1百万tokens,并可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。NSA在多项基准测试中表现优异,尤其在长文本和复杂推理任务上显著领先。此外,本次ACL还评选出其他三篇最佳论文,分别来自北大、斯坦福等团队,研究涉及模型对齐弹性、公平性差异感知及LLM采样机制理论。
原文链接
本文链接:https://kx.umi6.com/article/22743.html
转载请注明文章出处
相关推荐
换一换
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时
2026-05-27 10:20:09
DeepSeek服务恢复正常 此前崩溃约12小时
2026-03-30 10:43:55
DeepSeek据悉拟募资最高500亿元人民币
2026-05-08 21:41:39
DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配
2025-09-30 10:23:35
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
DeepSeek上线专家模式
2026-04-08 08:44:08
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
梁文锋,Nature全球年度十大科学人物!
2025-12-09 10:25:17
DeepSeek大量招人,该梁文锋上场了
2026-01-16 15:41:13
DeepSeek发布Agent Harness相关岗位 或推智能体产品
2026-05-20 16:47:33
DeepSeek又一论文上新
2026-02-27 15:54:06
所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员36小时中国AI行
2026-05-08 13:17:18
736 文章
636420 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41