2月18日,DeepSeek团队发布论文介绍新机制NSA(Natively Sparse Attention),专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化,显著提升AI模型在长上下文推理中的性能,同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色,尤其在链式推理等复杂任务中展现潜力,推理速度大幅提升,最高可达11.6倍。此技术有望扩展大语言模型的应用范围。
原文链接
本文链接:https://kx.umi6.com/article/13719.html
转载请注明文章出处
相关推荐
换一换
谷歌开源抗癌 AI 模型:模拟 4000 种药物后锁定潜在抗癌药
2025-10-16 14:56:03
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
2025-07-07 17:34:43
谷歌发布 Gemma 3n 端侧多模态模型,2GB 内存也能玩转 AI
2025-05-21 15:08:05
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
马斯克的最强 AI 模型 Grok 4 现已免费开放,非订阅用户每天可限量使用
2025-08-11 10:02:03
Anthropic 警告:包括 Claude 在内的大多数 AI 模型会实施“勒索”行为
2025-06-21 09:07:40
谷歌 Gemini 3.0 Pro 旗舰 AI 模型内测流出:编程实力亮眼,下周上线
2025-10-03 15:41:08
AGI又进一步了?谷歌AI模型重磅更新 助机器人感知环境完成复杂任务
2025-09-26 11:34:30
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
谷歌开源 MedGemma AI 模型,医疗图像与文本分析神器
2025-05-21 15:09:11
Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布
2025-05-22 11:27:22
华为AI模型运行专利公布
2025-09-05 15:25:04
540 文章
264805 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35