2月18日,DeepSeek团队发布论文介绍新机制NSA(Natively Sparse Attention),专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化,显著提升AI模型在长上下文推理中的性能,同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色,尤其在链式推理等复杂任务中展现潜力,推理速度大幅提升,最高可达11.6倍。此技术有望扩展大语言模型的应用范围。
原文链接
本文链接:https://kx.umi6.com/article/13719.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌 DeepMind 开发 DolphinGemma AI 模型,助力海豚“语言”研究
2025-04-15 08:21:03
百度将于3月中旬推出下一代AI模型Ernie
2025-02-27 14:25:36
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
443 文章
76999 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01