标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销,使得支持更长上下文成本高昂。
稀疏注意力成为学术界与工业界的共识方向,但现有方法在真实训练与部署中暴露出问题:许多稀疏方案改变了模型结构或输出形式,与标准全注意力机制不兼容,影响了从短序列到长序列的迁移效果。
清华大学刘知远团队提出《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》,通过dense-sparse可切换的注意力框架,在保持原有dense attention参数和输出形式不变的前提下,实现长短文本同时训练及平滑过渡。研究从性能保持、训练稳定性及端到端推理效率三方面验证了该设计思路,为长上下文大语言模型提供了新路径。
实验表明,InfLLM-V2在32k长度的RULER基准和多任务LongBench基准上,性能几乎与全注意力机制持平,且优于其他稀疏方法如NSA。在长链式推理任务(如MATH-500)中,InfLLM-V2表现稳定,而NSA出现显著下降。此外,InfLLM-V2在适配长上下文后仍能胜任短序列任务,性能未受影响。
在推理效率方面,InfLLM-V2实现了约2.1倍的prefilling加速和2.3倍的decoding加速,且无需优化前馈网络部分,证明其在真实场景中的实用性。
研究团队指出,稀疏注意力的未来发展重点并非设计全新结构,而是在不破坏dense attention前提下实现高效稀疏化。InfLLM-V2具备无需调整模型规模、维护多版本或重新预训练的优势,可“热升级”现有模型为长上下文处理能力。
主要作者包括赵威霖(清华博士生,聚焦高效大模型)、刘知远(清华教授,Google Scholar引用超7万次)、韩旭(OpenBMB核心发起人)及肖朝军(清华博士后)。
论文地址:https://arxiv.org/pdf/2509.24663
-
2026-02-06 20:13:16 -
2026-02-06 20:12:11 -
2026-02-06 19:06:44