谷歌新架构Titan挑战Transformer,展示出更高效的性能。据一作Ali Behrouz介绍,Titan架构在超过200万上下文窗口中表现出色,优于GPT4、Llama3等模型。
团队认为Transformer的注意力机制仅限于短期记忆,因此引入了新的长期记忆模块。此模块模仿人脑记忆机制,只记住重要的信息,并通过动量和遗忘机制优化记忆管理。此外,该模块可并行计算,增强了泛化能力。
Titan提出了三种集成长期记忆模块的方法:MAC、MAG和MAL。实验显示,在语言建模、常识推理、时间序列预测等任务中,Titan超越了现有模型。单独使用长期记忆模块,Titan也在多个任务中击败了基线模型。
原文链接
本文链接:https://kx.umi6.com/article/11724.html
转载请注明文章出处
相关推荐
换一换
谷歌新架构一战成名,挑战Transformer
2025-01-15 20:41:19
谷歌推出 Google Skills 平台:集成 3000 门课程,旨在培养数字时代必备技能
2025-10-25 15:30:28
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
中信证券:新一代AIDC供配电架构 高功率时代加速渗透
2025-10-24 08:30:42
百亿参数人类基因组通用基础模型发布
2025-10-23 20:16:19
硅谷又现AI算力巨额订单!谷歌与Anthropic达成数百亿美元合作
2025-10-24 08:29:28
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
第三届中国航空运输协会航空大会开幕 近百项人工智能科技及产品亮相
2025-10-25 16:32:54
FM Agent登顶OpenAI MLE-Bench,由百度智能云研发
2025-10-24 17:44:39
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
腾讯:50%的新增代码由AI辅助生成
2025-10-24 22:57:14
526 文章
250582 浏览
24小时热文
更多
-
2025-10-26 00:45:16 -
2025-10-25 23:44:04 -
2025-10-25 22:43:52