谷歌新架构Titan挑战Transformer,展示出更高效的性能。据一作Ali Behrouz介绍,Titan架构在超过200万上下文窗口中表现出色,优于GPT4、Llama3等模型。
团队认为Transformer的注意力机制仅限于短期记忆,因此引入了新的长期记忆模块。此模块模仿人脑记忆机制,只记住重要的信息,并通过动量和遗忘机制优化记忆管理。此外,该模块可并行计算,增强了泛化能力。
Titan提出了三种集成长期记忆模块的方法:MAC、MAG和MAL。实验显示,在语言建模、常识推理、时间序列预测等任务中,Titan超越了现有模型。单独使用长期记忆模块,Titan也在多个任务中击败了基线模型。
原文链接
本文链接:https://kx.umi6.com/article/11724.html
转载请注明文章出处
相关推荐
换一换
谷歌新架构一战成名,挑战Transformer
2025-01-15 20:41:19
OpenAI:我们的工具能让员工每天节省最多一小时专业工作时间
2025-12-08 21:49:12
《自然》杂志评出2025年度十大科学人物 梁文锋和杜梦然入选
2025-12-09 08:22:16
优必选斩获AI大模型公司超0.5亿人形机器人订单
2025-12-10 08:33:46
梁文锋,Nature全球年度十大科学人物!
2025-12-09 10:25:17
张予彤出任月之暗面总裁
2025-12-08 19:45:13
“杭州六小龙”之一的群核科技发布空间智能开放平台
2025-12-09 11:33:03
OpenAI的「梦醒时分」
2025-12-09 15:41:20
阿里成立千问C端事业群 全力打造AI时代用户第一入口与AI 助手
2025-12-09 16:51:24
AI眼镜赛道“群雄逐鹿” 行业投资机遇凸显
2025-12-10 08:32:41
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」
2025-12-09 16:45:28
共推空天领域智能化升级!趋境科技与金航数码强强联手
2025-12-09 18:50:41
“会操作手机的 AI”,智谱开源 AI Agent 模型 AutoGLM
2025-12-09 10:29:51
582 文章
344141 浏览
24小时热文
更多
-
2025-12-10 08:35:53 -
2025-12-10 08:34:53 -
2025-12-10 08:33:46