新研究提出了一种颠覆性的模型架构,RNN中的隐藏状态被设计成可学习的模型(TTT,Test-Time Training)。这种方法允许隐藏状态在测试时持续学习,挑战了Transformer的地位。实验表明,即使在较小规模,TTT-Linear和TTT-MLP已展现优于Transformer的性能,尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力,认为它可以是任意复杂模型,甚至包括CNN或Transformer。论文作者强调,尽管如此,仍有改进空间,比如探索更复杂的模型和学习策略。此外,该方法也被认为可能扩展到视频建模领域。论文链接:https://arxiv.org/abs/2407.04620。
原文链接
本文链接:https://kx.umi6.com/article/3030.html
转载请注明文章出处
相关推荐
换一换
“日本版OpenAI”创下估值新高!Transformer八子之一创办,老黄也投了
2025-11-19 15:22:56
全面超越Transformer!清华蚂蚁纯MLP架构,长短程时序预测大提升
2024-06-12 13:13:44
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
2025-07-17 18:26:53
那个要挑战GPT的00后清华男孩
2024-09-20 11:49:07
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
2025-01-14 15:12:54
彩云小梦V3.5上线!首个基于DCFormer架构通用大模型发布
2024-11-13 18:44:50
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2024-12-04 16:39:33
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
2026-01-21 09:02:53
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
2025-12-31 13:17:46
两位00后,融资8个亿
2024-06-29 16:53:08
737 文章
673773 浏览
24小时热文
更多
-
2026-06-10 01:48:40 -
2026-06-09 22:40:10 -
2026-06-09 19:38:23