9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp,并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention(DSA)稀疏注意力机制,优化长文本训练和推理效率,同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐,表现基本持平。本次更新还大幅降低API调用成本,开发者使用费用减少50%以上。目前,官方App、网页端及小程序均已同步更新至新版本。为支持对比测试,V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。
原文链接
本文链接:https://kx.umi6.com/article/26080.html
转载请注明文章出处
相关推荐
换一换
九章云极率先完成DeepSeek-V3.2-Exp适配,提供安全高效部署方案
2025-09-30 16:29:13
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
智谱GLM-5技术全公开!完全适配华为等国产芯片,美国网友酸了
2026-02-23 15:59:51
寒武纪Day 0适配DeepSeek-V3.2-Exp 同步开源推理引擎vLLM-MLU
2025-09-29 21:16:07
DeepSeek新论文再次引发热议,它说了什么?
2025-02-19 16:53:40
DeepSeek新发布
2025-09-29 22:15:21
DeepSeek-V3.2-Exp API价格官宣大幅下调
2025-09-29 19:17:29
DeepSeek-V3.2-Exp发布并开源
2025-09-29 18:14:47
DeepSeek-V3.2-Exp第一时间上线华为云
2025-09-30 00:16:10
华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
2025-09-29 20:14:51
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025-09-29 20:15:06
DeepSeek新模型上线
2025-09-30 11:25:43
华为昇腾、寒武纪、海光信息适配DeepSeek最新模型
2025-09-30 09:26:21
729 文章
535509 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18