2025年12月,谷歌在NeurIPS 2025上发布两项突破性研究,解决了Transformer处理超长上下文的瓶颈。新架构Titans结合RNN速度与Transformer性能,通过动态更新的记忆模块将上下文扩展至200万token,同时引入“惊喜指标”优化记忆存储。其理论框架MIRAS提出序列建模的统一方法,涵盖内存架构、注意力偏差等关键设计,并开发出YAAD、MONETA、MEMORA等无注意力模型。实验表明,该架构性能优于现有大规模模型如GPT-4。面对Hinton关于是否后悔公开Transformer的提问,Jeff Dean回应称其对世界产生了巨大积极影响。
原文链接
本文链接:https://kx.umi6.com/article/29742.html
转载请注明文章出处
相关推荐
换一换
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
2025-03-24 12:58:55
Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
2024-08-14 10:29:52
苹果AI选Mamba:Agent任务比Transformer更好
2025-10-21 14:27:27
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
两位00后,融资8个亿
2024-06-29 16:53:08
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
2025-01-17 17:20:30
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
2024-10-09 12:26:03
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
Google AI编年史
2025-11-04 16:20:36
那个要挑战GPT的00后清华男孩
2024-09-20 11:49:07
拯救Transformer推理能力,DeepMind新研究TransNAR:给模型嵌入“算法推理大脑”
2024-06-17 17:06:21
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
673 文章
543966 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33