1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销,使得支持更长上下文成本高昂。

稀疏注意力成为学术界与工业界的共识方向,但现有方法在真实训练与部署中暴露出问题:许多稀疏方案改变了模型结构或输出形式,与标准全注意力机制不兼容,影响了从短序列到长序列的迁移效果。

清华大学刘知远团队提出《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》,通过dense-sparse可切换的注意力框架,在保持原有dense attention参数和输出形式不变的前提下,实现长短文本同时训练及平滑过渡。研究从性能保持、训练稳定性及端到端推理效率三方面验证了该设计思路,为长上下文大语言模型提供了新路径。

实验表明,InfLLM-V2在32k长度的RULER基准和多任务LongBench基准上,性能几乎与全注意力机制持平,且优于其他稀疏方法如NSA。在长链式推理任务(如MATH-500)中,InfLLM-V2表现稳定,而NSA出现显著下降。此外,InfLLM-V2在适配长上下文后仍能胜任短序列任务,性能未受影响。

在推理效率方面,InfLLM-V2实现了约2.1倍的prefilling加速和2.3倍的decoding加速,且无需优化前馈网络部分,证明其在真实场景中的实用性。

研究团队指出,稀疏注意力的未来发展重点并非设计全新结构,而是在不破坏dense attention前提下实现高效稀疏化。InfLLM-V2具备无需调整模型规模、维护多版本或重新预训练的优势,可“热升级”现有模型为长上下文处理能力。

主要作者包括赵威霖(清华博士生,聚焦高效大模型)、刘知远(清华教授,Google Scholar引用超7万次)、韩旭(OpenBMB核心发起人)及肖朝军(清华博士后)。

论文地址:https://arxiv.org/pdf/2509.24663

原文链接
本文链接:https://kx.umi6.com/article/32701.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
过去一年,哪些AI模式跑出来了?
2024-08-07 19:19:32
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
2025-04-15 10:24:50
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文
2025-07-11 11:34:58
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
专家:会聊天≠会思考,大语言模型造不出通用人工智能
2025-11-30 11:06:37
模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
2024-12-03 16:18:53
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
2024-11-20 13:09:34
24小时热文
更多
扫一扫体验小程序