1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 开源大模型记忆模块:梁文锋署名新论文,下一代稀疏模型提前剧透
DeepSeek团队在节前发布新论文,提出为Transformer加入“条件记忆”模块Engram,补足知识查找机制。该研究由梁文锋与北京大学团队合作完成,认为条件记忆是下一代稀疏模型的关键。Engram通过哈希查找和上下文感知门控机制优化静态知识检索,减少计算浪费,并解决传统N-gram模型的存储爆炸和多义性问题。实验表明,在27B参数规模下,Engram模型在知识密集型和推理任务中均显著优于纯MoE模型,部分任务提升超预期。此外,百亿参数表可卸载至CPU,推理延迟几乎无影响。DeepSeek计划春节前发布下一代稀疏模型,相关论文已开源。
智能维度跳跃
01-13 09:22:36
Engram模块
条件记忆
稀疏模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序