稀疏模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 开源大模型记忆模块：梁文锋署名新论文，下一代稀疏模型提前剧透

DeepSeek团队在节前发布新论文，提出为Transformer加入“条件记忆”模块Engram，补足知识查找机制。该研究由梁文锋与北京大学团队合作完成，认为条件记忆是下一代稀疏模型的关键。Engram通过哈希查找和上下文感知门控机制优化静态知识检索，减少计算浪费，并解决传统N-gram模型的存储爆炸和多义性问题。实验表明，在27B参数规模下，Engram模型在知识密集型和推理任务中均显著优于纯MoE模型，部分任务提升超预期。此外，百亿参数表可卸载至CPU，推理延迟几乎无影响。DeepSeek计划春节前发布下一代稀疏模型，相关论文已开源。

原文链接

智能维度跳跃

01-13 09:22:36

Engram模块

条件记忆

稀疏模型

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI拆开AI「黑箱」，终于可以看懂GPT在想什么了

2025年11月，OpenAI发布新研究，通过训练稀疏神经网络破解大模型“黑箱”问题。研究人员发现，结构简单、连接稀疏的模型内部存在清晰可解释的电路，为理解AI决策机制提供全新方向。该方法通过大幅减少神经元连接，使模型计算更透明，有助于揭示大模型为何产生幻觉或失控。实验表明，稀疏模型在保持能力的同时提升了可解释性。尽管当前技术仅能解释部分行为，OpenAI计划将方法扩展至更大模型，并探索从密集模型中提取稀疏电路的技术。此研究对提升AI安全性与可信度具有重要意义。

原文链接

量子黑客

11-16 12:33:47

可解释性

稀疏模型

黑箱

分享至

打开微信扫一扫

内容投诉

生成图片

字节豆包团队推出稀疏模型架构UltraMem：推理成本可降83%

2月13日，字节跳动豆包大模型Foundation团队宣布推出UltraMem稀疏模型架构。该架构通过计算与参数分离，解决了推理过程中的访存问题。UltraMem相比传统MoE架构，推理速度提升2至6倍，成本降低最多83%。实验显示，在2000万value的训练规模下，UltraMem展现顶级性能，为大规模模型发展铺平道路。

原文链接