Deepseek-v3 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

“DeepSeek-V3基于我们的架构打造”，欧版OpenAI CEO逆天发言被喷了

2026年1月，欧洲版OpenAI公司Mistral的CEO Arthur Mensch在访谈中声称，中国开源模型DeepSeek-V3基于其团队提出的架构构建，此言论引发争议。网友指出，DeepSeek-V3与Mistral的Mixtral论文发布时间仅相差3天，且两者的架构思路和数学公式存在显著差异。DeepSeek通过细粒度专家分割和改进路由机制实现算法创新，而Mixtral更偏向工程优化。此外，Mistral 3 Large被曝直接沿用DeepSeek-V3架构，进一步加剧批评。Arthur Mensch的发言被质疑试图‘岁月史书’以挽回面子，网友对Mistral的态度从赞赏转为不满。目前，DeepSeek正瞄准春节档发布新模型，竞争愈发激烈。

原文链接

AI奇点纪元

01-26 13:08:15

Deepseek-v3

Mistral

稀疏混合专家模型

分享至

打开微信扫一扫

内容投诉

生成图片

摩尔线程携手硅基流动实现DeepSeek-V3大模型高性能推理

1月21日，摩尔线程与硅基流动联合宣布，在MTT S5000上利用FP8低精度推理技术完成对DeepSeek V3 671B大模型的深度适配与性能测试。实测单卡Prefill吞吐超4000 tokens/s，Decode吞吐超1000 tokens/s，性能接近国际顶尖产品。这一成果展示了高性能推理技术的新突破，为大模型应用提供了更高效的硬件支持。（记者黄心怡）

原文链接

智能维度跳跃

01-21 20:31:18

Deepseek-v3

摩尔线程

硅基流动

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeekV3.2技术报告还是老外看得细

12月4日，DeepSeek发布两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，在硅谷引发热议。新模型在智能体评测中达到开源模型最高水平，大幅缩小与顶尖闭源模型的差距。其中，标准版性能接近GPT-5，特别版超越GPT-5并在IMO、CMO等竞赛中获金牌，媲美Gemini-3.0-Pro。研究者苟志斌指出，强化学习在长上下文长度下也能持续扩展，突破了后训练瓶颈。此外，DeepSeek-V3.2系列成本极低，比GPT-5便宜近24倍，推理成本下降75%-83%。该模型还可能支持国产算力部署，进一步降低使用门槛，挑战谷歌、OpenAI及英伟达的技术和商业格局。

原文链接

AI幻想空间站

12-04 09:09:55

DeepSeek-V3.2

开源模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

2025年12月，DeepSeek发布V3.2系列开源模型，包含DeepSeek-V3.2和DeepSeek-V3.2-Speciale。前者适用于日常问答与工具调用，推理能力达GPT-5水平；后者聚焦极致推理，性能媲美Gemini-3.0-Pro，并斩获IMO、CMO、ICPC等竞赛金牌。V3.2采用DSA稀疏注意力机制，大幅降低长文本处理成本，在Agent任务中表现突出，支持思考融入工具调用。Speciale版本强化数学推理与逻辑验证，但未优化日常对话，且仅供研究使用。团队投入超预训练10%的算力用于强化学习，开发自动环境合成pipeline，生成大量复杂任务数据。尽管世界知识广度仍逊于闭源模型，DeepSeek-V3.2在多项基准测试中超越现有开源模型，展现强大泛化能力。

原文链接

智慧轨迹

12-01 22:37:15

Agent任务

DeepSeek-V3.2

Gemini-3.0-Pro

分享至

打开微信扫一扫

内容投诉

生成图片

九章云极率先完成DeepSeek-V3.2-Exp适配，提供安全高效部署方案

正文：2025年9月，九章云极宣布率先完成DeepSeek-V3.2-Exp大语言模型的适配，并在Alaya NeW智算云平台推出安全高效的私有化部署方案。该模型采用全新的稀疏注意力架构（DSA），显著降低长上下文计算成本，提升推理性能。通过一键化部署工具，企业可在自有环境中实现数据全链路隔离，保障核心业务信息安全。Alaya NeW平台提供多样化高端GPU资源与弹性调度功能，支持从单卡到千卡规模的灵活算力需求，覆盖训练、推理及微服务全流程。此次合作不仅推动AI技术普惠化，还助力企业大幅降低长序列文本场景下的训练推理成本，加速AI应用规模化落地。

原文链接

智能涌动

09-30 16:29:13

DeepSeek-V3.2-Exp

九章云极

私有化部署

分享至

打开微信扫一扫

内容投诉

生成图片

华为昇腾、寒武纪、海光信息适配DeepSeek最新模型

9月29日，深度求索公司发布新一代大语言模型DeepSeek-V3.2-Exp，并在HuggingFace平台开源。该模型采用稀疏Attention架构，降低计算资源消耗并提升推理效率。华为昇腾、寒武纪、海光信息同步宣布完成适配：昇腾实现0day支持并开源推理代码；寒武纪适配后开源推理引擎vLLM-MLU，结合新机制大幅降低训推成本；海光信息实现无缝适配与深度调优，验证其DCU高性能及生态兼容性。三家企业以软硬件协同助力国产AI生态发展。

原文链接

智慧棱镜

09-30 09:26:21

DeepSeek-V3.2-Exp

华为昇腾

寒武纪

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp第一时间上线华为云

2025年9月29日，DeepSeek-V3.2-Exp模型正式发布并开源，引入稀疏Attention架构以降低资源消耗、提升推理效率。华为云迅速完成适配，支持最长160K上下文序列，并将模型上架其大模型即服务平台MaaS，提供体验与API服务。华为云ModelArts推理平台基于CloudMatrix384基础设施，采用大EP并行方案优化部署，兼顾时延与吞吐性能，按需分配算力资源。用户可访问华为云官网，通过“大模型”导航菜单体验DeepSeek-V3.2-Exp模型的卓越能力。

原文链接

虚拟织梦者

09-30 00:16:10

DeepSeek-V3.2-Exp

华为云

稀疏Attention架构

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新发布

2025年9月29日，DeepSeek正式发布并开源实验性版本V3.2-Exp，引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序，API价格大幅降低，开发者调用成本减少超50%。同时，DeepSeek开源TileLang与CUDA双版本GPU算子，建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发，显著减少代码量且性能持平。此外，阿里云发布七款大模型产品，包括Qwen3-Max；智谱GLM-4.6即将发布；月之暗面Kimi推出Agent模式“OK Computer”灰度测试，强化智能体能力。

原文链接

AI创想团

09-29 22:15:21

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

寒武纪Day 0适配DeepSeek-V3.2-Exp 同步开源推理引擎vLLM-MLU

9月29日，寒武纪通过官方微信号宣布，已完成对深度求索公司最新模型DeepSeek-V3.2-Exp的适配，并同步开源大模型推理引擎vLLM-MLU源代码。这一进展展示了寒武纪在人工智能领域的技术实力和开放生态布局，为开发者提供了更高效的推理工具支持。

原文链接

星际Code流浪者

09-29 21:16:07

DeepSeek-V3.2-Exp

vLLM-MLU

寒武纪

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp官宣发布，API价格下调超50%

2025年9月29日，DeepSeek正式发布实验性版本V3.2-Exp，并开源。该版本引入稀疏注意力机制，优化长文本训练与推理效率，同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调，输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示，新模型在基准测试中表现与前代相当。此外，TileLang编程语言由北大团队开发，可大幅提升开发效率。同日，阿里云发布Qwen3-Max等七款大模型产品，智谱GLM-4.6即将上线，月之暗面Kimi推出Agent模式“OK Computer”灰度测试。

原文链接