综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
新研究提出了一种颠覆性的模型架构,RNN中的隐藏状态被设计成可学习的模型(TTT,Test-Time Training)。这种方法允许隐藏状态在测试时持续学习,挑战了Transformer的地位。实验表明,即使在较小规模,TTT-Linear和TTT-MLP已展现优于Transformer的性能,尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力,认为它可以是任意复杂模型,甚至包括CNN或Transformer。论文作者强调,尽管如此,仍有改进空间,比如探索更复杂的模型和学习策略。此外,该方法也被认为可能扩展到视频建模领域。论文链接:https://arxiv.org/abs/2407.04620。
原文链接
加载更多
暂无内容