9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp,并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention(DSA)稀疏注意力机制,优化长文本训练和推理效率,同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐,表现基本持平。本次更新还大幅降低API调用成本,开发者使用费用减少50%以上。目前,官方App、网页端及小程序均已同步更新至新版本。为支持对比测试,V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。
原文链接
本文链接:https://kx.umi6.com/article/26080.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
2025-09-29 19:14:08
DeepSeek新论文再次引发热议,它说了什么?
2025-02-19 16:53:40
DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2025-02-18 17:24:09
DeepSeek-V3.2-Exp API价格官宣大幅下调
2025-09-29 19:17:29
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025-09-29 20:15:06
DeepSeek-V3.2-Exp发布并开源
2025-09-29 18:14:47
华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
2025-09-29 20:14:51
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
阿里云官宣“全栈人工智能服务商”新定位 全球首创CXL数据库服务器 带来哪些变革?
2025-09-29 19:16:24
三星半导体:CXL 3.1 CMM-D 内存、512TB 级 PCIe 6.0 固态硬盘明后年见
2025-09-29 12:08:03
9家最值得关注的创新之星来了!73位投资人现场评选丨Demo China大揭密
2025-09-28 16:55:38
大佬连发警告,“人类只剩最后5年”
2025-09-29 13:10:33
562 文章
253093 浏览
24小时热文
更多

-
2025-09-29 20:15:06
-
2025-09-29 20:14:51
-
2025-09-29 20:13:53