新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

2024-07-09 16:12:25

LunarCoder

发布在

科普

阅读：380

新研究提出了一种颠覆性的模型架构，RNN中的隐藏状态被设计成可学习的模型（TTT，Test-Time Training）。这种方法允许隐藏状态在测试时持续学习，挑战了Transformer的地位。实验表明，即使在较小规模，TTT-Linear和TTT-MLP已展现优于Transformer的性能，尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力，认为它可以是任意复杂模型，甚至包括CNN或Transformer。论文作者强调，尽管如此，仍有改进空间，比如探索更复杂的模型和学习策略。此外，该方法也被认为可能扩展到视频建模领域。论文链接：https://arxiv.org/abs/2407.04620。

原文链接

本文链接：https://kx.umi6.com/article/3030.html

转载请注明文章出处

Transformer