谷歌新架构Titan挑战Transformer,展示出更高效的性能。据一作Ali Behrouz介绍,Titan架构在超过200万上下文窗口中表现出色,优于GPT4、Llama3等模型。
团队认为Transformer的注意力机制仅限于短期记忆,因此引入了新的长期记忆模块。此模块模仿人脑记忆机制,只记住重要的信息,并通过动量和遗忘机制优化记忆管理。此外,该模块可并行计算,增强了泛化能力。
Titan提出了三种集成长期记忆模块的方法:MAC、MAG和MAL。实验显示,在语言建模、常识推理、时间序列预测等任务中,Titan超越了现有模型。单独使用长期记忆模块,Titan也在多个任务中击败了基线模型。
原文链接
本文链接:https://kx.umi6.com/article/11724.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌新架构一战成名,挑战Transformer
2025-01-15 20:41:19
硅谷版的“莞莞类卿”?分析师称博通业绩增速令人想起早年的英伟达
2025-09-06 15:35:56
我的宝藏AI 浏览器被43亿“贱卖”了,这可能是最好的结局
2025-09-05 16:22:38
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
中信建投:计算机板块上半年业绩持续改善 看好AI软件&硬件、信创等板块投资机会
2025-09-05 09:17:05
马斯克旗下AI女友Ani夏装换新:高叉热裤到热辣比基尼
2025-09-04 23:08:57
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-05 21:25:03
高盛:人人都在谈论AI 但目前AI仍难与公司利润直接挂钩
2025-09-05 18:25:52
估值翻倍用时约 15 个月:法 AI 企业 Mistral 新融资轮中估值达 120 亿欧元
2025-09-05 12:18:29
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
人形机器人学会用洗碗机,Figure 放出最新演示
2025-09-04 22:09:37
OpenAI的00后“叛徒”正在碾压华尔街“老江湖”
2025-09-06 16:36:53
470 文章
160136 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08