1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,DeepSeek团队发布论文介绍新机制NSA(Natively Sparse Attention),专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化,显著提升AI模型在长上下文推理中的性能,同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色,尤其在链式推理等复杂任务中展现潜力,推理速度大幅提升,最高可达11.6倍。此技术有望扩展大语言模型的应用范围。

原文链接
本文链接:https://kx.umi6.com/article/13719.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌 DeepMind 开发 DolphinGemma AI 模型,助力海豚“语言”研究
2025-04-15 08:21:03
百度将于3月中旬推出下一代AI模型Ernie
2025-02-27 14:25:36
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
24小时热文
更多
扫一扫体验小程序