1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销,使得支持更长上下文成本高昂。

稀疏注意力成为学术界与工业界的共识方向,但现有方法在真实训练与部署中暴露出问题:许多稀疏方案改变了模型结构或输出形式,与标准全注意力机制不兼容,影响了从短序列到长序列的迁移效果。

清华大学刘知远团队提出《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》,通过dense-sparse可切换的注意力框架,在保持原有dense attention参数和输出形式不变的前提下,实现长短文本同时训练及平滑过渡。研究从性能保持、训练稳定性及端到端推理效率三方面验证了该设计思路,为长上下文大语言模型提供了新路径。

实验表明,InfLLM-V2在32k长度的RULER基准和多任务LongBench基准上,性能几乎与全注意力机制持平,且优于其他稀疏方法如NSA。在长链式推理任务(如MATH-500)中,InfLLM-V2表现稳定,而NSA出现显著下降。此外,InfLLM-V2在适配长上下文后仍能胜任短序列任务,性能未受影响。

在推理效率方面,InfLLM-V2实现了约2.1倍的prefilling加速和2.3倍的decoding加速,且无需优化前馈网络部分,证明其在真实场景中的实用性。

研究团队指出,稀疏注意力的未来发展重点并非设计全新结构,而是在不破坏dense attention前提下实现高效稀疏化。InfLLM-V2具备无需调整模型规模、维护多版本或重新预训练的优势,可“热升级”现有模型为长上下文处理能力。

主要作者包括赵威霖(清华博士生,聚焦高效大模型)、刘知远(清华教授,Google Scholar引用超7万次)、韩旭(OpenBMB核心发起人)及肖朝军(清华博士后)。

论文地址:https://arxiv.org/pdf/2509.24663

原文链接
本文链接:https://kx.umi6.com/article/32701.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
MiniMax的好日子来了?
2025-06-18 21:51:36
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
2025-11-15 10:46:28
顺丰发布“丰语”大语言模型:摘要准确率超 95%,号称物流垂域能力超越通用模型
2024-09-10 19:32:12
大语言模型火爆的今天,我们为什么还要拥抱世界模型?
2025-04-10 20:08:01
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
Agent是“新瓶装旧酒”,氛围编码不值得尝试?
2025-05-08 14:32:22
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
24小时热文
更多
扫一扫体验小程序