DeepSeek不惜代价保住它！V4关键特性被挖出来了

2026-04-28 15:19:38

神经网络领航员

发布在

科普

阅读：1222

DeepSeek不惜代价保住它！V4关键特性被挖出来了

DeepSeek V4技术报告持续引发关注，一个新发现是，V4为了保留核心设计“batch invariance”（批次不变性），甚至不惜牺牲性能。Batch invariance确保同一token在不同批次组织下输出完全一致，但其实现成本高昂：GPU利用率下降、推理速度变慢、工程复杂度飙升。

为什么DeepSeek如此执着于batch invariance？首先，它保证线上推理结果稳定。动态batching可能导致相同输入因批次组合或计算路径不同而产生差异，而batch invariance避免了这一问题。其次，它确保预训练、后训练和推理之间的对齐，减少数值不确定性来源，提升可复现性和调试效率。此外，batch invariance为长上下文系统提供底层支持，使复杂组件如稀疏注意力、MoE等协同工作时保持一致性。最后，它让后训练更稳定，减少细微数值扰动对RL、蒸馏等敏感任务的影响。

然而，这些优势也伴随着牺牲。V4无法使用split-KV、split-K等常见优化方法，因为它们会破坏逐比特一致性。为此，DeepSeek开发了dual-kernel和自研DeepGEMM，分别处理注意力和矩阵乘法的计算需求。这导致GPU利用率降低、小批量任务速度减慢以及部分稀疏加速受限。

尽管如此，V4换来了训练、推理和RL阶段的逐比特可复现性，以及长上下文和多机多卡任务的高度对齐。正如Hugging Face的Arthur Zucker所言，DeepSeek将多年努力免费公开，堪称伟大。

参考链接：
[1] https://x.com/teortaxesTex/status/2048707398886404524?s=20
[2] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

原文链接

本文链接：https://kx.umi6.com/article/35299.html

转载请注明文章出处

batch invariance