2025年7月31日,DeepSeek团队在ACL 2025上荣获最佳论文奖。梁文锋作为通讯作者,与北京大学联合发表的论文提出原生稀疏注意力(NSA)机制,通过算法与硬件协同优化,使长文本处理速度提升11倍,且性能超越传统全注意力模型。论文一作袁境阳透露,该技术可将上下文扩展至1百万tokens,并可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。NSA在多项基准测试中表现优异,尤其在长文本和复杂推理任务上显著领先。此外,本次ACL还评选出其他三篇最佳论文,分别来自北大、斯坦福等团队,研究涉及模型对齐弹性、公平性差异感知及LLM采样机制理论。
原文链接
本文链接:https://kx.umi6.com/article/22743.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
郑州:深化与DeepSeek等人工智能头部企业的合作
2025-06-24 20:22:15
罗永浩:新AI产品3个月后见 DeepSeek创始人建议我“靠嘴吃饭”
2025-06-22 11:15:34
DeepSeek式的AI味,越来越让人受不了了
2025-06-30 16:43:50
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
梁文锋等来及时雨
2025-07-15 17:50:04
DeepSeek流量下滑,这半年梁文锋都干了啥?
2025-07-14 14:22:04
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
DeepSeek NSA论文荣膺ACL桂冠,知乎答主热议一线科研成果
2025-08-01 13:00:21
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
DeepSeek昨天悄悄扔的炸弹,今天爆了
2025-08-22 17:51:00
530 文章
237872 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29