标题:大模型“原地改参数”新突破!字节Seed&北大提出In-Place TTT
字节Seed与北京大学联合研究团队提出了一种名为“In-Place TTT”的新方法,让大模型在推理时无需修改架构或重新训练即可“原地改参数”。这一技术解决了现有测试时训练(TTT)方法的三大痛点:架构不兼容、计算效率低和优化目标不匹配。
随着智能体时代的到来,大模型需要处理更复杂的任务和超长上下文。然而,传统TTT方法需引入新网络层甚至替换注意力机制,导致预训练成本高昂;逐Token更新的方式也无法充分利用GPU/TPU的并行计算能力;此外,其重建目标与语言模型的核心任务“预测下一个Token”不符。
针对这些问题,研究团队巧妙复用了Transformer中的MLP模块,将其最后一个投影矩阵作为快速权重,在推理时进行原地更新。这种方法既保留了原有架构,又避免了新增专用层,真正实现了即插即用。同时,In-Place TTT设计了与自回归语言模型对齐的优化目标,通过一维卷积和投影矩阵显式包含未来Token信息,提升了上下文学习能力。此外,该方法支持高效的分块更新,结合上下文并行技术,大幅提高了计算效率,尤其适用于长文本任务。
实验表明,Qwen3-4B、Llama3.1-8B和Qwen3-14B等模型在装备In-Place TTT后性能显著提升,尤其在128K至256K长上下文任务中表现优异。论文已被ICLR 2026 Oral接收。
论文地址:
https://arxiv.org/abs/2604.06169v1
原文链接
本文链接:https://kx.umi6.com/article/34647.html
转载请注明文章出处
相关推荐
换一换
三星电子、SK海力士转向三至五年长期供应协议模式
2026-04-09 14:13:16
预告
2026-04-09 15:14:52
科技巨头押注下一代核能 AI电力需求重塑能源融资格局
2026-04-10 20:31:29
长安天枢智能机器人公司完成工商登记 注册资本4.5亿
2026-04-09 14:14:20
浙江:在医疗、康复、健康干预等场景 打造一批脑机接口创新应用
2026-04-10 14:15:58
英特尔总市值突破3000亿美元 股价创5年新高
2026-04-09 22:30:18
OpenAI因能源成本问题暂停英国“星际之门”项目
2026-04-09 19:23:46
千问AI眼镜S1开启预约
2026-04-10 14:12:38
“恰好”分管AI领域工作 美副防长巨额套现AI股
2026-04-10 20:29:17
力压Seedance 2.0! 神秘AI模型登全球AI评测榜第一名:正式宣布开源
2026-04-09 12:05:02
爆火GitHub!《生化危机》女主打造免费“AI记忆系统”
2026-04-09 14:09:03
太初元碁完成智谱GLM-5.1即发即适配
2026-04-10 16:17:39
北京海淀发布八条OPC举措
2026-04-10 21:29:39
778 文章
567731 浏览
24小时热文
更多
-
2026-04-10 22:32:49 -
2026-04-10 21:29:39 -
2026-04-10 20:31:29