DeepSeek V4最大的遗憾
DeepSeek V4的技术报告中提到了mHC、CSA、HCA、Muon和FP4等技术,但唯独没有Engram。这一缺失引发了广泛讨论。
Engram由DeepSeek与北大于今年1月联合开源,专注于大模型的记忆与效率问题。它的核心理念是为Transformer添加一个原生知识查表模块,让模型无需动用深层网络即可快速检索静态知识,例如“伦敦是英国首都”。这种方式不仅节省显存,还能释放深层网络用于更高阶的推理。自论文发布以来,Engram被视为V4架构的地基,备受期待。然而,V4发布后,人们发现Engram并未被采用,这成为其最大遗憾。
尽管如此,Engram的理念并未消失。后续三篇重要论文进一步拓展了其应用:
1. CXL内存池化版本:将Engram嵌入多机共享的CXL内存池,解决大模型多机部署的存储问题。
2. 无冲突热层实验:通过实验证伪了一些直觉式优化方案,揭示了高频与低频路径在训练中的动态变化。
3. 视觉Tiny Engram:AutoArk团队将Engram从文本扩展到视觉模态,显著减少了参数需求,并避免了概念退化问题。
Engram的核心思想是将语言建模中的静态知识检索与动态推理分离。传统Transformer需要逐层计算才能识别实体(如“戴安娜王妃”),而Engram通过哈希查找直接获取结果,大幅提升了效率。实验表明,在总参数固定的情况下,将20%-25%的稀疏参数分配给Engram,可使模型性能达到最优。此外,Engram还间接加深了网络,提升了推理能力。
虽然Engram未出现在V4中,但其潜力已在其他领域显现。未来,或许V5或V4.1会将其纳入,成为下一代稀疏模型的关键组件。
参考链接:
[1] https://arxiv.org/pdf/2601.07372
[2] https://arxiv.org/pdf/2603.10087
[3] https://arxiv.org/pdf/2601.16531
-
2026-05-03 14:26:30 -
2026-05-03 12:19:12 -
2026-05-03 11:18:44