东南大学耿新团队：模型不是不会做，而是被「挤掉了能力」丨CVPR 2026

2026-04-22 15:18:48

智能视野

发布在

科普

阅读：41

标题：东南大学耿新团队：模型能力“被挤掉”问题的解决方案丨CVPR 2026

正文：
当一个模型不断加入新任务时，原本表现良好的能力可能开始下降。这并非模型不会，而是因为多任务共享同一套内部表示空间，导致任务间争夺资源，部分能力被“挤掉”。这种现象在持续迭代的系统中尤为常见，新增能力往往影响已有能力，使系统变得不稳定。

针对这一问题，东南大学耿新团队提出了论文《Model Merging in the Essential Subspace》，聚焦于模型中“重要信息到底在哪里”。研究表明，模型的有效能力集中在少数关键方向上，而非均匀分布。因此，多任务融合失败的原因在于这些关键方向发生了冲突。团队通过两项核心步骤解决此问题：一是分离不同任务的重要方向，避免冲突；二是保留重要信息，抑制噪声，从而实现多任务稳定共存。

团队提出的方法称为ESM（Essential Subspace Merging），相比传统方法，ESM在多任务增加时性能更稳定。实验显示，当任务增多时，传统方法性能损耗达8%-9%，而ESM的损耗率降低约20%。此外，ESM在大模型上的提升虽略有缩小，但其价值在于为小模型提供清晰的子空间解耦机制。

研究还发现，仅保留5%的关键成分即可接近单任务微调效果，说明任务知识集中在少数功能性更强的方向上。同时，ESM对数据依赖性低，即使使用少量样本也能快速收敛，证明任务子空间是一种低维结构。

团队进一步优化了融合策略，包括采用ESD分解方式、正交化处理和权重分配规则，确保任务间的公平表达。这些方法不仅提升了性能，还揭示了深度模型内部的知识组织方式：任务知识虽然存在于高维参数中，但真正决定性能的变化集中在少数方向上。

这项研究的意义不仅在于提出了一种更强的融合方法，还重新定义了模型融合问题，从参数拼接转向知识结构重组。未来，AI系统有望在不反复重训的情况下整合多种能力，且更加稳定高效。这将推动学术界对模型内部机制的理解，并为普通人带来更智能、更便捷的AI工具。

通讯作者耿新是东南大学首席教授，长期深耕机器学习与大模型领域，发表论文230余篇，获得多项国家级荣誉。另一位通讯作者祁磊副研究员专注于计算机视觉与模式识别，发表论文60余篇，主持多项科研项目。

论文链接：https://arxiv.org/pdf/2602.20208
参考链接：
耿新主页：https://palm.seu.edu.cn/xgeng/
祁磊主页：https://palm.seu.edu.cn/qilei/

原文链接

本文链接：https://kx.umi6.com/article/35070.html

转载请注明文章出处

多任务共存

子空间冲突

模型融合

分享至

打开微信扫一扫

内容投诉

生成图片

智能视野

721 文章

556970 浏览

24小时热文

广东：支持终端品牌企业推进以智能体为核心的产品开发

2026-04-22 17:22:29
汇丰策略师：美股涨势未完待续企业盈利势头足以抵消地缘政治风险

2026-04-22 17:21:24
英伟达接洽韩国电力设备企业讨论800V直流系统合作

2026-04-22 17:20:17