1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
新研究提出了一种颠覆性的模型架构,RNN中的隐藏状态被设计成可学习的模型(TTT,Test-Time Training)。这种方法允许隐藏状态在测试时持续学习,挑战了Transformer的地位。实验表明,即使在较小规模,TTT-Linear和TTT-MLP已展现优于Transformer的性能,尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力,认为它可以是任意复杂模型,甚至包括CNN或Transformer。论文作者强调,尽管如此,仍有改进空间,比如探索更复杂的模型和学习策略。此外,该方法也被认为可能扩展到视频建模领域。论文链接:https://arxiv.org/abs/2407.04620。
LunarCoder
07-09 16:12:25
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序