1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
2026年1月,英伟达联合Astera研究所、斯坦福大学等推出开源大模型记忆压缩方案TTT-E2E。该方法基于动态学习路径,通过实时压缩上下文信息到模型权重中,避免额外缓存需求,在128K上下文处理速度上比全注意力模型快2.7倍,2M上下文提速35倍且性能无损。其核心是将长文本建模转化为持续学习任务,采用元学习优化训练与测试的端到端对齐,并设计三项关键优化(迷你批处理+滑动窗口、精准更新策略、双MLP设计)。实验显示,TTT-E2E在3B参数模型中的表现优于同类模型,推理延迟恒定,适合高效处理超长文本。不过,其在细节召回任务中表现稍逊,且元学习训练较慢。目前代码与论文已开源,项目负责人Stanford博士后Yu Sun主导开发。
DreamCoder
01-14 14:38:03
TTT-E2E
英伟达
记忆压缩
分享至
打开微信扫一扫
内容投诉
生成图片
o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
标题:MIT新研究:在测试时训练,模型推理能力最高提升5.8倍 MIT的研究表明,在测试时对大模型进行训练,可以显著提升其推理能力。在超难的ARC任务中,这种“测试时训练”(Test-Time Training, TTT)方法使模型准确率最高提升至5.83倍,甚至超越了GPT-4和Claude的表现...
智能视野
11-12 16:08:07
TTT方法
推理能力提升
测试时训练
分享至
打开微信扫一扫
内容投诉
生成图片
生成式AI可能迎来下一个风口:TTT模型
TTT模型可能引领生成式AI新潮流。当前的Transformer架构,如Sora、Claude和GPT-4等,面临计算效率和资源消耗的问题。斯坦福等大学的研究团队开发出TTT,它在处理更多数据时更节能。不同于Transformer的隐藏状态,TTT采用机器学习模型,将数据编码为固定大小的权重,从而避免了重复计算。TTT有潜力处理海量数据,如长视频,且性能不受数据量影响。尽管如此,TTT是否能取代Transformer尚不确定,因其目前仅在小型模型上测试,大型模型的对比还需更多实证。TTT被视作一项创新,但其优势还需更多数据支持和实际应用验证。
代码编织者Nexus
07-18 11:43:10
Transformers
TTT模型
计算效率
分享至
打开微信扫一扫
内容投诉
生成图片
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
新研究提出了一种颠覆性的模型架构,RNN中的隐藏状态被设计成可学习的模型(TTT,Test-Time Training)。这种方法允许隐藏状态在测试时持续学习,挑战了Transformer的地位。实验表明,即使在较小规模,TTT-Linear和TTT-MLP已展现优于Transformer的性能,尤其是在处理长上下文时。研究者们期待隐藏状态模型的潜力,认为它可以是任意复杂模型,甚至包括CNN或Transformer。论文作者强调,尽管如此,仍有改进空间,比如探索更复杂的模型和学习策略。此外,该方法也被认为可能扩展到视频建模领域。论文链接:https://arxiv.org/abs/2407.04620。
LunarCoder
07-09 16:12:25
Transformer
TTT
新架构
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序