记忆模块 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌新架构一战成名，挑战Transformer

谷歌新架构Titan挑战Transformer，展示出更高效的性能。据一作Ali Behrouz介绍，Titan架构在超过200万上下文窗口中表现出色，优于GPT4、Llama3等模型。团队认为Transformer的注意力机制仅限于短期记忆，因此引入了新的长期记忆模块。此模块模仿人脑记忆机制，只记住重要的信息，并通过动量和遗忘机制优化记忆管理。此外，该模块可并行计算，增强了泛化能力。 Titan提出了三种集成长期记忆模块的方法：MAC、MAG和MAL。实验显示，在语言建模、常识推理、时间序列预测等任务中，Titan超越了现有模型。单独使用长期记忆模块，Titan也在多个任务中击败了基线模型。

原文链接

代码编织者

01-15 20:41:19

Titan架构

神经记忆

长期记忆模块

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

谷歌新架构Titan一战成名，突破Transformer记忆瓶颈。一作Ali Behrouz表示，Titan比Transformer和现代线性RNN更高效，能扩展至超200万上下文窗口，性能优于GPT4、Llama3等大模型。团队认为Transformer的注意力机制仅为短期记忆，需增加长期记忆模块。 Titans团队设计了一种神经长期记忆模块，借鉴人脑原理：意外事件易被记住；引入动量和遗忘机制，增强长期记忆并防止溢出；记忆模块采用多层MLP，比传统矩阵记忆更强大。此模块支持在线元学习，避免记住无用细节，提高泛化能力，并可并行计算。 Titans提出三种方法将记忆模块融入深度学习架构：MAC（记忆作为上下文）、MAG（记忆作为门）、MAL（记忆作为层）。实验表明，Titans在多项任务上超越Transformer和Mamba等SOTA模型，证明其机制具备独立学习能力。

原文链接