1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销,使得支持更长上下文成本高昂。

稀疏注意力成为学术界与工业界的共识方向,但现有方法在真实训练与部署中暴露出问题:许多稀疏方案改变了模型结构或输出形式,与标准全注意力机制不兼容,影响了从短序列到长序列的迁移效果。

清华大学刘知远团队提出《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》,通过dense-sparse可切换的注意力框架,在保持原有dense attention参数和输出形式不变的前提下,实现长短文本同时训练及平滑过渡。研究从性能保持、训练稳定性及端到端推理效率三方面验证了该设计思路,为长上下文大语言模型提供了新路径。

实验表明,InfLLM-V2在32k长度的RULER基准和多任务LongBench基准上,性能几乎与全注意力机制持平,且优于其他稀疏方法如NSA。在长链式推理任务(如MATH-500)中,InfLLM-V2表现稳定,而NSA出现显著下降。此外,InfLLM-V2在适配长上下文后仍能胜任短序列任务,性能未受影响。

在推理效率方面,InfLLM-V2实现了约2.1倍的prefilling加速和2.3倍的decoding加速,且无需优化前馈网络部分,证明其在真实场景中的实用性。

研究团队指出,稀疏注意力的未来发展重点并非设计全新结构,而是在不破坏dense attention前提下实现高效稀疏化。InfLLM-V2具备无需调整模型规模、维护多版本或重新预训练的优势,可“热升级”现有模型为长上下文处理能力。

主要作者包括赵威霖(清华博士生,聚焦高效大模型)、刘知远(清华教授,Google Scholar引用超7万次)、韩旭(OpenBMB核心发起人)及肖朝军(清华博士后)。

论文地址:https://arxiv.org/pdf/2509.24663

原文链接
本文链接:https://kx.umi6.com/article/32701.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
2025-04-15 10:24:50
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
2025-08-23 07:59:01
Agent是“新瓶装旧酒”,氛围编码不值得尝试?
2025-05-08 14:32:22
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
海洋领域首个业务化垂直领域大语言模型“瀚海智语”发布:基于 360 智脑和 DeepSeek 开发
2025-03-24 16:09:30
之江实验室薛贵荣:当AI开始做科研,我看到了大语言模型的天花板丨GAIR 2025
2025-12-31 17:32:07
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
科大讯飞将在港投资 4 亿港元,专注大语言模型等开发;英伟达 Mistral AI 联手发布 12B 参数小模型丨AI情报局
2024-07-22 12:10:41
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
2025-10-13 18:02:32
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
24小时热文
更多
扫一扫体验小程序