1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

为什么这篇谷歌论文被称为「Attention is all you need」V2

“好记性不如烂笔头”,既然大模型常有“记忆缺陷”,为什么不给它们配个“小本本”记录要点呢?谷歌新论文《嵌套学习:深度学习架构的幻象》被誉为“Attention is all you need”V2,揭示了AI可能缺失的“另一半大脑”。

当前大型语言模型(LLMs)普遍存在“数字失忆症”。无论ChatGPT多么博学,它也可能在对话中迅速遗忘刚刚学到的内容。过去十年,行业普遍依赖“规模即智能”的思路,通过堆叠Transformer层和增加参数量来解决问题。然而,这种方法存在明显局限:仅靠扩大模型无法显著提升能力,快速适应新任务、持续学习及泛化性也难以通过参数堆叠实现。

谷歌的研究团队另辟蹊径,重新审视了一个基础但被忽视的组件——优化器。他们发现,主流优化器不仅是训练的“引擎”,更是一个隐秘的“记忆体”,默默存储和压缩梯度变化的历史信息。这意味着,从优化器到注意力机制再到整个神经网络,实际上是一个多层级、多节奏的“学习-记忆”系统。这一洞察催生了全新的范式:“嵌套学习”。

嵌套学习提出,真正的智能需要两个维度:深度(模型层数与容量)和频率(内部组件自我更新的速度)。这类似于人脑的学习机制:快速反应处理瞬息信息,慢速巩固形成长期知识。而现有模型却像患有“顺行性失忆症”,只有快速响应的对话缓存和冻结的长期知识,缺乏中间频谱的记忆通道,导致新知识无处安放或轻易遗忘。

为验证这一理论,研究团队开发了新型架构HOPE,其核心是连续记忆系统。HOPE由一系列以不同频率更新的MLP模块组成,分别模拟工作记忆、近期记忆和长期记忆。高频模块捕捉即时细节,中频模块提炼模式,低频模块沉淀重要知识。这种设计高度模仿了神经科学中的记忆巩固机制,并在实验中展现出强大潜力。

“嵌套学习”的意义不仅在于技术突破,更在于提供了一种全新的设计逻辑和思考框架。它试图为学习过程本身构建一个统一且可解释的模型,正如“注意力机制”曾统一序列建模视野一样。虽然这一探索仍处于前沿,但它开启了关于“记忆”与“学习”本质的新篇章。未来的AI或许不仅需要更深的网络,还需要一个能够持续学习和演化的动态系统,而不再只是训练完成后的“知识琥珀”。

原文链接
本文链接:https://kx.umi6.com/article/30572.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌发布“嵌套学习”范式:让 AI 像人脑一样温故知新,从“健忘”到“过目不忘”
2025-11-10 10:08:48
业界大佬:完善的记忆系统是实现 AGI 的关键
2026-01-08 20:37:30
全球首个!材科源图发布有机高分子应用智能体
2026-06-04 22:24:57
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
刚刚,姚顺雨现身!公开回应腾讯AI落后了吗?
2026-06-05 12:54:51
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
SoulAgent 即将亮相北京智源大会,探索个人智能体在知识服务场景中的应用
2026-06-08 17:43:47
行业景气度走高!SK暂缓出让晶圆厂商SK Siltron
2026-06-04 20:22:35
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
NVIDIA发布Cosmos 3:全球首个全开源物理AI全能模型面世
2026-06-05 00:32:58
LG砸重金采购万片英伟达GPU 全速冲刺AI转型
2026-06-07 23:56:41
慕尼黑工大Johannes Betz 教授:时速300公里的自动驾驶超车 | ICRA 2026
2026-06-04 16:14:04
24小时热文
更多
扫一扫体验小程序