在2025年ACL颁奖典礼上,DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,使长文本处理速度提升11倍,性能超越传统全注意力模型。一作袁境阳透露,技术可扩展上下文至1百万tokens,或用于下一代DeepSeek-V4及R2模型。实验显示,NSA在多项基准测试中表现优异,尤其在复杂推理和代码理解任务中显著领先。此外,大会还评选出其他3篇最佳论文,分别来自北大、斯坦福等团队,涉及模型对齐弹性、公平性差异感知及生成采样机制研究。
原文链接
本文链接:https://kx.umi6.com/article/22853.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
2026-01-21 09:02:53
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
北大团队改造DeepSeek注意力,速度快四倍还不丢精度
2026-04-07 00:20:16
智谱创始人唐杰谈 DeepSeek:很震撼,开启了“AI 做事”新范式
2026-01-12 09:23:20
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
2025-08-09 11:28:33
别太相信DeepSeek
2025-08-14 18:02:41
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
710 文章
552281 浏览
24小时热文
更多
-
2026-04-24 17:27:38 -
2026-04-24 17:26:33 -
2026-04-24 17:25:23