1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

为什么这篇谷歌论文被称为「Attention is all you need」V2

“好记性不如烂笔头”,既然大模型常有“记忆缺陷”,为什么不给它们配个“小本本”记录要点呢?谷歌新论文《嵌套学习:深度学习架构的幻象》被誉为“Attention is all you need”V2,揭示了AI可能缺失的“另一半大脑”。

当前大型语言模型(LLMs)普遍存在“数字失忆症”。无论ChatGPT多么博学,它也可能在对话中迅速遗忘刚刚学到的内容。过去十年,行业普遍依赖“规模即智能”的思路,通过堆叠Transformer层和增加参数量来解决问题。然而,这种方法存在明显局限:仅靠扩大模型无法显著提升能力,快速适应新任务、持续学习及泛化性也难以通过参数堆叠实现。

谷歌的研究团队另辟蹊径,重新审视了一个基础但被忽视的组件——优化器。他们发现,主流优化器不仅是训练的“引擎”,更是一个隐秘的“记忆体”,默默存储和压缩梯度变化的历史信息。这意味着,从优化器到注意力机制再到整个神经网络,实际上是一个多层级、多节奏的“学习-记忆”系统。这一洞察催生了全新的范式:“嵌套学习”。

嵌套学习提出,真正的智能需要两个维度:深度(模型层数与容量)和频率(内部组件自我更新的速度)。这类似于人脑的学习机制:快速反应处理瞬息信息,慢速巩固形成长期知识。而现有模型却像患有“顺行性失忆症”,只有快速响应的对话缓存和冻结的长期知识,缺乏中间频谱的记忆通道,导致新知识无处安放或轻易遗忘。

为验证这一理论,研究团队开发了新型架构HOPE,其核心是连续记忆系统。HOPE由一系列以不同频率更新的MLP模块组成,分别模拟工作记忆、近期记忆和长期记忆。高频模块捕捉即时细节,中频模块提炼模式,低频模块沉淀重要知识。这种设计高度模仿了神经科学中的记忆巩固机制,并在实验中展现出强大潜力。

“嵌套学习”的意义不仅在于技术突破,更在于提供了一种全新的设计逻辑和思考框架。它试图为学习过程本身构建一个统一且可解释的模型,正如“注意力机制”曾统一序列建模视野一样。虽然这一探索仍处于前沿,但它开启了关于“记忆”与“学习”本质的新篇章。未来的AI或许不仅需要更深的网络,还需要一个能够持续学习和演化的动态系统,而不再只是训练完成后的“知识琥珀”。

原文链接
本文链接:https://kx.umi6.com/article/30572.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
为什么这篇谷歌论文被称为「Attention is all you need」V2
2025-12-21 19:59:07
谷歌发布“嵌套学习”范式:让 AI 像人脑一样温故知新,从“健忘”到“过目不忘”
2025-11-10 10:08:48
摩尔线程发布AI算力笔记本MTT AIBOOK 预售价9999元
2025-12-20 12:49:52
可打电话可对讲!全球首款奥特曼 AI 互动对话器来了
2025-12-19 15:55:26
我军兵棋系统已融合 AI 对战模型
2025-12-19 23:15:32
气象人工智能模型“风源”雄安首发,直接读取卫星、雷达、气象站等数据
2025-12-20 21:06:06
增长神话暂停,理想「尖子生」光环失效?
2025-12-19 13:51:28
智元江苏具身智能产业基地战略合作项目在无锡签约落地
2025-12-20 16:57:54
国家人工智能应用中试基地(医疗)浙江开园
2025-12-21 11:44:10
浙江:加快推动人工智能创新发展高地建设 全面实施“人工智能+”行动
2025-12-20 19:02:31
独家|阿里钉钉启动“D计划”项目 或剑指AI硬件新形态
2025-12-19 17:01:56
联合国贸发会议:2033年人工智能将成最具主导性前沿技术
2025-12-20 00:20:04
菜鸟与九识智能“超级整合”在即,无人货运“马太效应”凸显
2025-12-19 19:05:22
24小时热文
更多
扫一扫体验小程序