DeepSeek团队在节前发布新论文,提出为Transformer加入“条件记忆”模块Engram,补足知识查找机制。该研究由梁文锋与北京大学团队合作完成,认为条件记忆是下一代稀疏模型的关键。Engram通过哈希查找和上下文感知门控机制优化静态知识检索,减少计算浪费,并解决传统N-gram模型的存储爆炸和多义性问题。实验表明,在27B参数规模下,Engram模型在知识密集型和推理任务中均显著优于纯MoE模型,部分任务提升超预期。此外,百亿参数表可卸载至CPU,推理延迟几乎无影响。DeepSeek计划春节前发布下一代稀疏模型,相关论文已开源。
原文链接
本文链接:https://kx.umi6.com/article/31529.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 开源大模型记忆模块:梁文锋署名新论文,下一代稀疏模型提前剧透
2026-01-13 09:22:36
OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
2025-11-16 12:33:47
DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram
2026-01-13 09:25:44
马斯克怒斥英国政府:“法西斯”
2026-01-12 09:46:44
Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手
2026-01-13 10:26:57
双芯48GB 9999元!Intel顶级专业显卡锐炫Pro B60正式开卖
2026-01-12 16:45:10
商汤医疗引入河南汇融近亿元战略投资
2026-01-13 11:29:29
Grok 生成色情图像引全球监管风暴,英国对马斯克旗下 X 平台展开正式调查
2026-01-12 20:51:50
“全球大模型第一股”智谱与滴滴达成战略合作,探索出行 Agent 场景落地
2026-01-12 16:42:52
谷歌联合零售巨头推出通用商务协议 UCP,推动 AI 智能体购物全流程标准化
2026-01-12 15:41:18
和闫俊杰一起敲钟的她:31岁,身价48亿
2026-01-12 17:44:50
华住会回应“AI 照片在摄影比赛夺冠”:不符合原创性规则,已取消成绩
2026-01-12 09:27:51
美防长称马斯克旗下 AI 聊天机器人 Grok 将接入五角大楼系统
2026-01-13 11:42:11
656 文章
442630 浏览
24小时热文
更多
-
2026-01-13 11:43:16 -
2026-01-13 11:42:11 -
2026-01-13 11:41:05