2025年12月,谷歌在NeurIPS 2025上发布两项突破性研究,解决了Transformer处理超长上下文的瓶颈。新架构Titans结合RNN速度与Transformer性能,通过动态更新的记忆模块将上下文扩展至200万token,同时引入“惊喜指标”优化记忆存储。其理论框架MIRAS提出序列建模的统一方法,涵盖内存架构、注意力偏差等关键设计,并开发出YAAD、MONETA、MEMORA等无注意力模型。实验表明,该架构性能优于现有大规模模型如GPT-4。面对Hinton关于是否后悔公开Transformer的提问,Jeff Dean回应称其对世界产生了巨大积极影响。
原文链接
本文链接:https://kx.umi6.com/article/29742.html
转载请注明文章出处
相关推荐
换一换
全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,英伟达 H100 的 20 倍
2024-06-26 12:30:19
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
2024-06-21 15:42:20
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟,2025 全球机器学习技术大会全日程官宣!
2025-09-18 16:55:56
那个要挑战GPT的00后清华男孩
2024-09-20 11:49:07
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
2025-12-31 13:17:46
LLM 的“母语”是什么?
2024-06-03 07:50:10
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
Transformer“贡献最大”作者,重返谷歌出任Gemini联合技术主管
2024-08-23 12:33:25
速度秒杀GPT们10倍,国外的DeepSeek时刻来了?
2025-03-14 08:00:03
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
2024-07-09 16:12:25
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
613 文章
402926 浏览
24小时热文
更多
-
2026-01-21 22:27:36 -
2026-01-21 20:31:18 -
2026-01-21 20:30:12