为什么这篇谷歌论文被称为「Attention is all you need」V2

2025-12-21 19:59:07

智慧轨迹

发布在

科普

阅读：750

为什么这篇谷歌论文被称为「Attention is all you need」V2

“好记性不如烂笔头”，既然大模型常有“记忆缺陷”，为什么不给它们配个“小本本”记录要点呢？谷歌新论文《嵌套学习：深度学习架构的幻象》被誉为“Attention is all you need”V2，揭示了AI可能缺失的“另一半大脑”。

当前大型语言模型（LLMs）普遍存在“数字失忆症”。无论ChatGPT多么博学，它也可能在对话中迅速遗忘刚刚学到的内容。过去十年，行业普遍依赖“规模即智能”的思路，通过堆叠Transformer层和增加参数量来解决问题。然而，这种方法存在明显局限：仅靠扩大模型无法显著提升能力，快速适应新任务、持续学习及泛化性也难以通过参数堆叠实现。

谷歌的研究团队另辟蹊径，重新审视了一个基础但被忽视的组件——优化器。他们发现，主流优化器不仅是训练的“引擎”，更是一个隐秘的“记忆体”，默默存储和压缩梯度变化的历史信息。这意味着，从优化器到注意力机制再到整个神经网络，实际上是一个多层级、多节奏的“学习-记忆”系统。这一洞察催生了全新的范式：“嵌套学习”。

嵌套学习提出，真正的智能需要两个维度：深度（模型层数与容量）和频率（内部组件自我更新的速度）。这类似于人脑的学习机制：快速反应处理瞬息信息，慢速巩固形成长期知识。而现有模型却像患有“顺行性失忆症”，只有快速响应的对话缓存和冻结的长期知识，缺乏中间频谱的记忆通道，导致新知识无处安放或轻易遗忘。

为验证这一理论，研究团队开发了新型架构HOPE，其核心是连续记忆系统。HOPE由一系列以不同频率更新的MLP模块组成，分别模拟工作记忆、近期记忆和长期记忆。高频模块捕捉即时细节，中频模块提炼模式，低频模块沉淀重要知识。这种设计高度模仿了神经科学中的记忆巩固机制，并在实验中展现出强大潜力。

“嵌套学习”的意义不仅在于技术突破，更在于提供了一种全新的设计逻辑和思考框架。它试图为学习过程本身构建一个统一且可解释的模型，正如“注意力机制”曾统一序列建模视野一样。虽然这一探索仍处于前沿，但它开启了关于“记忆”与“学习”本质的新篇章。未来的AI或许不仅需要更深的网络，还需要一个能够持续学习和演化的动态系统，而不再只是训练完成后的“知识琥珀”。

原文链接

本文链接：https://kx.umi6.com/article/30572.html

转载请注明文章出处

Attention is all you need