DeepSeek不惜代价保住它!V4关键特性被挖出来了
DeepSeek V4技术报告持续引发关注,一个新发现是,V4为了保留核心设计“batch invariance”(批次不变性),甚至不惜牺牲性能。Batch invariance确保同一token在不同批次组织下输出完全一致,但其实现成本高昂:GPU利用率下降、推理速度变慢、工程复杂度飙升。
为什么DeepSeek如此执着于batch invariance?首先,它保证线上推理结果稳定。动态batching可能导致相同输入因批次组合或计算路径不同而产生差异,而batch invariance避免了这一问题。其次,它确保预训练、后训练和推理之间的对齐,减少数值不确定性来源,提升可复现性和调试效率。此外,batch invariance为长上下文系统提供底层支持,使复杂组件如稀疏注意力、MoE等协同工作时保持一致性。最后,它让后训练更稳定,减少细微数值扰动对RL、蒸馏等敏感任务的影响。
然而,这些优势也伴随着牺牲。V4无法使用split-KV、split-K等常见优化方法,因为它们会破坏逐比特一致性。为此,DeepSeek开发了dual-kernel和自研DeepGEMM,分别处理注意力和矩阵乘法的计算需求。这导致GPU利用率降低、小批量任务速度减慢以及部分稀疏加速受限。
尽管如此,V4换来了训练、推理和RL阶段的逐比特可复现性,以及长上下文和多机多卡任务的高度对齐。正如Hugging Face的Arthur Zucker所言,DeepSeek将多年努力免费公开,堪称伟大。
参考链接:
[1] https://x.com/teortaxesTex/status/2048707398886404524?s=20
[2] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
-
2026-04-28 17:32:27 -
2026-04-28 17:31:21 -
2026-04-28 17:30:14