2月18日,DeepSeek团队发布论文介绍新机制NSA(Natively Sparse Attention),专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化,显著提升AI模型在长上下文推理中的性能,同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色,尤其在链式推理等复杂任务中展现潜力,推理速度大幅提升,最高可达11.6倍。此技术有望扩展大语言模型的应用范围。
原文链接
本文链接:https://kx.umi6.com/article/13719.html
转载请注明文章出处
相关推荐
.png)
换一换
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
美亿万富翁投资人马克・库班呼吁:在 AI 模型上投放广告应被视作违法行为
2025-07-28 19:18:03
微软 AI 高管直言:有时 OpenAI 模型交付不及时,自研模型落后 3 到 6 个月
2025-05-19 19:22:37
浙江大学发布高精准基因组设计AI模型
2025-07-09 11:05:23
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑
2025-07-21 09:14:02
国际象棋最强 AI 鸣锣开赛:首日战果公布,OpenAI 的 o3、xAI 的 Grok4 等晋级
2025-08-06 10:27:23
Yupp 平台上线:邀用户低成本使用业界各大 AI 模型,收集评测反馈构建排行榜
2025-06-23 15:25:53
AI 3D大模型Tripo 3.0发布:参数量达200亿 草图秒变3D
2025-08-22 17:51:52
约翰斯・霍普金斯大学研发新 AI 模型,可更准确预测心源性猝死风险
2025-07-05 16:00:44
在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
2025-08-04 20:02:39
谷歌新App来了!手机没网也能玩AI 还能画图、写代码
2025-06-02 08:30:14
英伟达三大AI重磅产品齐发,GPU服务器性能暴增18倍
2025-08-13 16:37:45
494 文章
184704 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24