1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

在2025年7月31日的ACL 2025颁奖典礼上,DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力(NSA)机制通过算法与硬件协同优化,将长文本处理速度提升11倍,且性能超越传统全注意力模型。一作袁境阳透露,该技术可扩展上下文至1百万tokens,可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示,NSA在多项基准测试中表现优异,尤其在复杂推理和长文本任务中显著领先。此外,会议还评选出其他三篇*论文,分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论,为AI领域带来新洞见。

原文链接
本文链接:https://kx.umi6.com/article/22746.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1
2024-11-07 10:16:21
OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
2025-04-15 15:34:47
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
2024-12-11 09:21:31
DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖
2025-08-01 17:03:23
DeepSeek NSA论文荣膺ACL桂冠,知乎答主热议一线科研成果
2025-08-01 13:00:21
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
DeepSeek下一代技术提前曝光
2025-07-31 09:02:46
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
2025-07-31 09:00:51
我国网络安全法修正草案拟完善 AI 伦理规范,加强安全监管
2025-10-23 15:10:09
OpenAI、甲骨文宣布“星际之门”数据中心选址威斯康星州
2025-10-23 13:07:05
24小时热文
更多
扫一扫体验小程序