DeepSeek V4最大的遗憾

2026-05-03 12:19:12

DeepSeek V4最大的遗憾

AI创想团

发布在

科普

阅读：436

DeepSeek V4最大的遗憾

DeepSeek V4的技术报告中提到了mHC、CSA、HCA、Muon和FP4等技术，但唯独没有Engram。这一缺失引发了广泛讨论。

Engram由DeepSeek与北大于今年1月联合开源，专注于大模型的记忆与效率问题。它的核心理念是为Transformer添加一个原生知识查表模块，让模型无需动用深层网络即可快速检索静态知识，例如“伦敦是英国首都”。这种方式不仅节省显存，还能释放深层网络用于更高阶的推理。自论文发布以来，Engram被视为V4架构的地基，备受期待。然而，V4发布后，人们发现Engram并未被采用，这成为其最大遗憾。

尽管如此，Engram的理念并未消失。后续三篇重要论文进一步拓展了其应用：
1. CXL内存池化版本：将Engram嵌入多机共享的CXL内存池，解决大模型多机部署的存储问题。
2. 无冲突热层实验：通过实验证伪了一些直觉式优化方案，揭示了高频与低频路径在训练中的动态变化。
3. 视觉Tiny Engram：AutoArk团队将Engram从文本扩展到视觉模态，显著减少了参数需求，并避免了概念退化问题。

Engram的核心思想是将语言建模中的静态知识检索与动态推理分离。传统Transformer需要逐层计算才能识别实体（如“戴安娜王妃”），而Engram通过哈希查找直接获取结果，大幅提升了效率。实验表明，在总参数固定的情况下，将20%-25%的稀疏参数分配给Engram，可使模型性能达到最优。此外，Engram还间接加深了网络，提升了推理能力。

虽然Engram未出现在V4中，但其潜力已在其他领域显现。未来，或许V5或V4.1会将其纳入，成为下一代稀疏模型的关键组件。

参考链接：
[1] https://arxiv.org/pdf/2601.07372
[2] https://arxiv.org/pdf/2603.10087
[3] https://arxiv.org/pdf/2601.16531

原文链接

本文链接：https://kx.umi6.com/article/35436.html

转载请注明文章出处

DeepSeek V4