大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练

2026-04-10 15:13:42

超频思维站

发布在

科普

阅读：311

标题：大模型“原地改参数”新突破！字节Seed&北大提出In-Place TTT

字节Seed与北京大学联合研究团队提出了一种名为“In-Place TTT”的新方法，让大模型在推理时无需修改架构或重新训练即可“原地改参数”。这一技术解决了现有测试时训练（TTT）方法的三大痛点：架构不兼容、计算效率低和优化目标不匹配。

随着智能体时代的到来，大模型需要处理更复杂的任务和超长上下文。然而，传统TTT方法需引入新网络层甚至替换注意力机制，导致预训练成本高昂；逐Token更新的方式也无法充分利用GPU/TPU的并行计算能力；此外，其重建目标与语言模型的核心任务“预测下一个Token”不符。

针对这些问题，研究团队巧妙复用了Transformer中的MLP模块，将其最后一个投影矩阵作为快速权重，在推理时进行原地更新。这种方法既保留了原有架构，又避免了新增专用层，真正实现了即插即用。同时，In-Place TTT设计了与自回归语言模型对齐的优化目标，通过一维卷积和投影矩阵显式包含未来Token信息，提升了上下文学习能力。此外，该方法支持高效的分块更新，结合上下文并行技术，大幅提高了计算效率，尤其适用于长文本任务。

实验表明，Qwen3-4B、Llama3.1-8B和Qwen3-14B等模型在装备In-Place TTT后性能显著提升，尤其在128K至256K长上下文任务中表现优异。论文已被ICLR 2026 Oral接收。

论文地址：
https://arxiv.org/abs/2604.06169v1

原文链接

本文链接：https://kx.umi6.com/article/34647.html

转载请注明文章出处

In-Place TTT