记忆压缩 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

2026年1月，英伟达联合Astera研究所、斯坦福大学等推出开源大模型记忆压缩方案TTT-E2E。该方法基于动态学习路径，通过实时压缩上下文信息到模型权重中，避免额外缓存需求，在128K上下文处理速度上比全注意力模型快2.7倍，2M上下文提速35倍且性能无损。其核心是将长文本建模转化为持续学习任务，采用元学习优化训练与测试的端到端对齐，并设计三项关键优化（迷你批处理+滑动窗口、精准更新策略、双MLP设计）。实验显示，TTT-E2E在3B参数模型中的表现优于同类模型，推理延迟恒定，适合高效处理超长文本。不过，其在细节召回任务中表现稍逊，且元学习训练较慢。目前代码与论文已开源，项目负责人Stanford博士后Yu Sun主导开发。

原文链接