Engram模块 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 开源大模型记忆模块：梁文锋署名新论文，下一代稀疏模型提前剧透

DeepSeek团队在节前发布新论文，提出为Transformer加入“条件记忆”模块Engram，补足知识查找机制。该研究由梁文锋与北京大学团队合作完成，认为条件记忆是下一代稀疏模型的关键。Engram通过哈希查找和上下文感知门控机制优化静态知识检索，减少计算浪费，并解决传统N-gram模型的存储爆炸和多义性问题。实验表明，在27B参数规模下，Engram模型在知识密集型和推理任务中均显著优于纯MoE模型，部分任务提升超预期。此外，百亿参数表可卸载至CPU，推理延迟几乎无影响。DeepSeek计划春节前发布下一代稀疏模型，相关论文已开源。

原文链接