1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepSeek V4最大的遗憾

DeepSeek V4的技术报告中提到了mHC、CSA、HCA、Muon和FP4等技术,但唯独没有Engram。这一缺失引发了广泛讨论。

Engram由DeepSeek与北大于今年1月联合开源,专注于大模型的记忆与效率问题。它的核心理念是为Transformer添加一个原生知识查表模块,让模型无需动用深层网络即可快速检索静态知识,例如“伦敦是英国首都”。这种方式不仅节省显存,还能释放深层网络用于更高阶的推理。自论文发布以来,Engram被视为V4架构的地基,备受期待。然而,V4发布后,人们发现Engram并未被采用,这成为其最大遗憾。

尽管如此,Engram的理念并未消失。后续三篇重要论文进一步拓展了其应用:
1. CXL内存池化版本:将Engram嵌入多机共享的CXL内存池,解决大模型多机部署的存储问题。
2. 无冲突热层实验:通过实验证伪了一些直觉式优化方案,揭示了高频与低频路径在训练中的动态变化。
3. 视觉Tiny Engram:AutoArk团队将Engram从文本扩展到视觉模态,显著减少了参数需求,并避免了概念退化问题。

Engram的核心思想是将语言建模中的静态知识检索与动态推理分离。传统Transformer需要逐层计算才能识别实体(如“戴安娜王妃”),而Engram通过哈希查找直接获取结果,大幅提升了效率。实验表明,在总参数固定的情况下,将20%-25%的稀疏参数分配给Engram,可使模型性能达到最优。此外,Engram还间接加深了网络,提升了推理能力。

虽然Engram未出现在V4中,但其潜力已在其他领域显现。未来,或许V5或V4.1会将其纳入,成为下一代稀疏模型的关键组件。

参考链接:
[1] https://arxiv.org/pdf/2601.07372
[2] https://arxiv.org/pdf/2603.10087
[3] https://arxiv.org/pdf/2601.16531

原文链接
本文链接:https://kx.umi6.com/article/35436.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上海三大先导产业母基金一季度累计投决突破500亿元
2026-05-02 22:49:42
吨级重载新纪元开启|大咖机器人全球首发“吨级重载机器马”
2026-04-29 11:14:31
马斯克“认怂”:HW3硬件被判死刑,FSD无监督版还要再等几年?
2026-04-30 17:44:14
太抓马了!马斯克OpenAI开庭,硅谷巨富互揭老底像极了村口吵架
2026-05-01 15:34:55
预告:中国贸促会5月18日将在北京举办2026年全球贸易投资促进峰会
2026-04-29 13:25:18
Anthropic悄然上调Claude Code的Tokens使用成本预估 涨幅超100%
2026-04-29 11:16:36
工业和信息化部批准《人工智能 深度合成图像系统技术规范》等690项行业标准
2026-04-29 12:21:08
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练
2026-05-01 15:36:25
担心被Skill替代的打工人发现:“根本不是那么回事”
2026-04-30 17:45:59
三部门:扩大科技创新和技术改造贷款投放 进一步支持设备更新
2026-04-30 18:42:21
腾云智算与华为达成深度合作 共筑福建智算新生态
2026-05-01 08:19:37
Sora之父“跑路”背后的五大真相是什么?
2026-04-30 17:39:21
35岁老员工遭公司解雇获赔2N!法院:以AI替代为由裁员违法
2026-04-29 12:20:00
24小时热文
更多
扫一扫体验小程序