在2025年ACL颁奖典礼上,DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,使长文本处理速度提升11倍,性能超越传统全注意力模型。一作袁境阳透露,技术可扩展上下文至1百万tokens,或用于下一代DeepSeek-V4及R2模型。实验显示,NSA在多项基准测试中表现优异,尤其在复杂推理和代码理解任务中显著领先。此外,大会还评选出其他3篇最佳论文,分别来自北大、斯坦福等团队,涉及模型对齐弹性、公平性差异感知及生成采样机制研究。
原文链接
本文链接:https://kx.umi6.com/article/22853.html
转载请注明文章出处
相关推荐
换一换
DeepSeek昨天悄悄扔的炸弹,今天爆了
2025-08-22 17:51:00
DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖
2025-08-01 17:03:23
AI味,越来越让人受不了了
2025-06-30 17:46:15
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
ColorOS 小布助手月活量达 1.5 亿,OPPO 手机(含一加)接入 DeepSeek 设备量行业第一
2025-06-10 15:49:36
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
别太相信DeepSeek
2025-08-14 18:02:41
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
DeepSeek终于把OpenAI逼急了
2025-08-06 16:35:39
梁文锋,准备战斗
2025-07-30 17:51:33
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
2025-08-22 14:48:58
601 文章
346408 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42