谷歌新架构Titan一战成名,突破Transformer记忆瓶颈。一作Ali Behrouz表示,Titan比Transformer和现代线性RNN更高效,能扩展至超200万上下文窗口,性能优于GPT4、Llama3等大模型。团队认为Transformer的注意力机制仅为短期记忆,需增加长期记忆模块。
Titans团队设计了一种神经长期记忆模块,借鉴人脑原理:意外事件易被记住;引入动量和遗忘机制,增强长期记忆并防止溢出;记忆模块采用多层MLP,比传统矩阵记忆更强大。此模块支持在线元学习,避免记住无用细节,提高泛化能力,并可并行计算。
Titans提出三种方法将记忆模块融入深度学习架构:MAC(记忆作为上下文)、MAG(记忆作为门)、MAL(记忆作为层)。实验表明,Titans在多项任务上超越Transformer和Mamba等SOTA模型,证明其机制具备独立学习能力。
原文链接
本文链接:https://kx.umi6.com/article/11643.html
转载请注明文章出处
相关推荐
换一换
张亚勤:Transformer五年内会被逐步重构,15-20年内实现AGI | 清华AIR无锡创新中心成立
2024-06-08 15:19:23
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
2025-10-31 17:41:14
谷歌 AI 掌门人 Jeff Dean 对话 Transformer 作者:AI 提速 300%,1000 万倍工程师要来了
2025-02-22 18:43:08
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
Transformer“贡献最大”作者,重返谷歌出任Gemini联合技术主管
2024-08-23 12:33:25
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
彩云小梦V3.5上线!首个基于DCFormer架构通用大模型发布
2024-11-13 18:44:50
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05 19:46:53
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
OpenAI的前世今生
2025-08-27 10:01:51
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
610 文章
345424 浏览
24小时热文
更多
-
2025-12-08 12:28:38 -
2025-12-08 12:27:32 -
2025-12-08 12:26:26