DeepSeek V4报告太详尽了！484天换代之路全公开

2026-04-25 12:10:04

新智燎原

发布在

快讯

阅读：2348

2026年4月24日，DeepSeek发布V4版本，历时484天研发。新版本实现百万token上下文全面开源，KV cache缩减至V3.2的10%，显著缓解HBM短缺问题。V4-Pro和V4-Flash分别具备1.6万亿和2840亿参数，上下文长度达1M。模型支持国产芯片华为算力，并预计适配昇腾950超节点。技术亮点包括mHC强化残差连接、混合注意力机制（CSA与HCA交替使用）、Muon优化器替代AdamW等。实验显示，V4-Pro在推理benchmark上优于GPT-5.2，接近Gemini-3.1-Pro；V4-Flash-Max以13B激活参数媲美顶级闭源模型。团队表示未来将探索更精简架构及多模态方向。此次发布强调开源与长期主义，贡献者名单涵盖已离职研究者，彰显团队协作精神。

原文链接

本文链接：https://kx.umi6.com/article/35202.html

转载请注明文章出处

DeepSeek V4