2025年12月,谷歌在NeurIPS 2025上发布两项突破性研究,解决了Transformer处理超长上下文的瓶颈。新架构Titans结合RNN速度与Transformer性能,通过动态更新的记忆模块将上下文扩展至200万token,同时引入“惊喜指标”优化记忆存储。其理论框架MIRAS提出序列建模的统一方法,涵盖内存架构、注意力偏差等关键设计,并开发出YAAD、MONETA、MEMORA等无注意力模型。实验表明,该架构性能优于现有大规模模型如GPT-4。面对Hinton关于是否后悔公开Transformer的提问,Jeff Dean回应称其对世界产生了巨大积极影响。
原文链接
本文链接:https://kx.umi6.com/article/29742.html
转载请注明文章出处
相关推荐
换一换
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
2025-07-19 11:51:22
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
2025-11-18 13:17:53
CVPR 2026:深度学习的「标准件」,正在被逐个拆掉
2026-05-29 18:20:29
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
左手Transformer,右手世界模型,我们距离AGI还有多远?
2024-11-21 18:39:56
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
2026-01-20 09:46:08
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
彩云小梦V3.5上线!首个基于DCFormer架构通用大模型发布
2024-11-13 18:44:50
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2024-12-04 16:39:33
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
708 文章
647895 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41