谷歌新架构Titan挑战Transformer,展示出更高效的性能。据一作Ali Behrouz介绍,Titan架构在超过200万上下文窗口中表现出色,优于GPT4、Llama3等模型。
团队认为Transformer的注意力机制仅限于短期记忆,因此引入了新的长期记忆模块。此模块模仿人脑记忆机制,只记住重要的信息,并通过动量和遗忘机制优化记忆管理。此外,该模块可并行计算,增强了泛化能力。
Titan提出了三种集成长期记忆模块的方法:MAC、MAG和MAL。实验显示,在语言建模、常识推理、时间序列预测等任务中,Titan超越了现有模型。单独使用长期记忆模块,Titan也在多个任务中击败了基线模型。
原文链接
本文链接:https://kx.umi6.com/article/11724.html
转载请注明文章出处
相关推荐
.png)
换一换
经济学家示警:AI 投资崩盘隐忧,泡沫规模远超“互联网泡沫”
2025-07-19 14:56:08
欧盟为具有系统性风险的 AI 模型定规矩:若发生严重事故必须上报,网安工作要到位
2025-07-18 19:43:49
消息称 Meta 超级智能实验室已招募 44 人:一半来自中国,40% 曾在 OpenAI 任职
2025-07-20 17:06:49
415 文章
67178 浏览
24小时热文
更多

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03