在2025年ACL颁奖典礼上,DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,使长文本处理速度提升11倍,性能超越传统全注意力模型。一作袁境阳透露,技术可扩展上下文至1百万tokens,或用于下一代DeepSeek-V4及R2模型。实验显示,NSA在多项基准测试中表现优异,尤其在复杂推理和代码理解任务中显著领先。此外,大会还评选出其他3篇最佳论文,分别来自北大、斯坦福等团队,涉及模型对齐弹性、公平性差异感知及生成采样机制研究。
原文链接
本文链接:https://kx.umi6.com/article/22853.html
转载请注明文章出处
相关推荐
换一换
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek 出现服务故障:网页 / API 性能异常,已进行修复
2025-11-25 16:59:50
DeepSeek发布两款新模型
2025-12-01 19:31:03
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
deepseek当选网易有道词典2025年度词汇,全年搜索量超867万次
2025-12-01 18:22:41
美称中国一人工智能企业违反美出口管制 外交部:中方已多次表明原则立场
2026-02-24 15:53:46
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
梁文锋,准备战斗
2025-07-30 17:51:33
DeepSeek:正测试新的长文本模型结构 支持1M上下文
2026-02-13 20:39:39
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
679 文章
478684 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18