TTT - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

新研究提出了一种颠覆性的模型架构，RNN中的隐藏状态被设计成可学习的模型（TTT，Test-Time Training）。这种方法允许隐藏状态在测试时持续学习，挑战了Transformer的地位。实验表明，即使在较小规模，TTT-Linear和TTT-MLP已展现优于Transformer的性能，尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力，认为它可以是任意复杂模型，甚至包括CNN或Transformer。论文作者强调，尽管如此，仍有改进空间，比如探索更复杂的模型和学习策略。此外，该方法也被认为可能扩展到视频建模领域。论文链接：https://arxiv.org/abs/2407.04620。

原文链接