综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月12日晚,DeepSeek发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者包括北京大学与DeepSeek团队,署名中出现梁文锋。论文提出条件记忆(conditional memory)概念,通过引入可扩展查找记忆结构,在相同参数和算力下显著提升大型语言模型在知识调用、推理、代码及数学任务中的表现。同时,DeepSeek开源了相关记忆模块Engram,为研究社区提供重要资源。这一成果为AI模型稀疏性研究开辟了新方向,具有重要意义。
原文链接
DeepSeek团队在节前发布新论文,提出为Transformer加入“条件记忆”模块Engram,补足知识查找机制。该研究由梁文锋与北京大学团队合作完成,认为条件记忆是下一代稀疏模型的关键。Engram通过哈希查找和上下文感知门控机制优化静态知识检索,减少计算浪费,并解决传统N-gram模型的存储爆炸和多义性问题。实验表明,在27B参数规模下,Engram模型在知识密集型和推理任务中均显著优于纯MoE模型,部分任务提升超预期。此外,百亿参数表可卸载至CPU,推理延迟几乎无影响。DeepSeek计划春节前发布下一代稀疏模型,相关论文已开源。
原文链接
加载更多
暂无内容