清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级

2026-02-06 20:12:11

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

超频思维站

发布在

科普

阅读：302

标题：清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

正文：
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k，而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销，使得支持更长上下文成本高昂。

稀疏注意力成为学术界与工业界的共识方向，但现有方法在真实训练与部署中暴露出问题：许多稀疏方案改变了模型结构或输出形式，与标准全注意力机制不兼容，影响了从短序列到长序列的迁移效果。

清华大学刘知远团队提出《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》，通过dense-sparse可切换的注意力框架，在保持原有dense attention参数和输出形式不变的前提下，实现长短文本同时训练及平滑过渡。研究从性能保持、训练稳定性及端到端推理效率三方面验证了该设计思路，为长上下文大语言模型提供了新路径。

实验表明，InfLLM-V2在32k长度的RULER基准和多任务LongBench基准上，性能几乎与全注意力机制持平，且优于其他稀疏方法如NSA。在长链式推理任务（如MATH-500）中，InfLLM-V2表现稳定，而NSA出现显著下降。此外，InfLLM-V2在适配长上下文后仍能胜任短序列任务，性能未受影响。

在推理效率方面，InfLLM-V2实现了约2.1倍的prefilling加速和2.3倍的decoding加速，且无需优化前馈网络部分，证明其在真实场景中的实用性。

研究团队指出，稀疏注意力的未来发展重点并非设计全新结构，而是在不破坏dense attention前提下实现高效稀疏化。InfLLM-V2具备无需调整模型规模、维护多版本或重新预训练的优势，可“热升级”现有模型为长上下文处理能力。

主要作者包括赵威霖（清华博士生，聚焦高效大模型）、刘知远（清华教授，Google Scholar引用超7万次）、韩旭（OpenBMB核心发起人）及肖朝军（清华博士后）。

论文地址：https://arxiv.org/pdf/2509.24663

原文链接

本文链接：https://kx.umi6.com/article/32701.html

转载请注明文章出处

大语言模型