标题:东南大学耿新团队:模型能力“被挤掉”问题的解决方案丨CVPR 2026
正文:
当一个模型不断加入新任务时,原本表现良好的能力可能开始下降。这并非模型不会,而是因为多任务共享同一套内部表示空间,导致任务间争夺资源,部分能力被“挤掉”。这种现象在持续迭代的系统中尤为常见,新增能力往往影响已有能力,使系统变得不稳定。
针对这一问题,东南大学耿新团队提出了论文《Model Merging in the Essential Subspace》,聚焦于模型中“重要信息到底在哪里”。研究表明,模型的有效能力集中在少数关键方向上,而非均匀分布。因此,多任务融合失败的原因在于这些关键方向发生了冲突。团队通过两项核心步骤解决此问题:一是分离不同任务的重要方向,避免冲突;二是保留重要信息,抑制噪声,从而实现多任务稳定共存。
团队提出的方法称为ESM(Essential Subspace Merging),相比传统方法,ESM在多任务增加时性能更稳定。实验显示,当任务增多时,传统方法性能损耗达8%-9%,而ESM的损耗率降低约20%。此外,ESM在大模型上的提升虽略有缩小,但其价值在于为小模型提供清晰的子空间解耦机制。
研究还发现,仅保留5%的关键成分即可接近单任务微调效果,说明任务知识集中在少数功能性更强的方向上。同时,ESM对数据依赖性低,即使使用少量样本也能快速收敛,证明任务子空间是一种低维结构。
团队进一步优化了融合策略,包括采用ESD分解方式、正交化处理和权重分配规则,确保任务间的公平表达。这些方法不仅提升了性能,还揭示了深度模型内部的知识组织方式:任务知识虽然存在于高维参数中,但真正决定性能的变化集中在少数方向上。
这项研究的意义不仅在于提出了一种更强的融合方法,还重新定义了模型融合问题,从参数拼接转向知识结构重组。未来,AI系统有望在不反复重训的情况下整合多种能力,且更加稳定高效。这将推动学术界对模型内部机制的理解,并为普通人带来更智能、更便捷的AI工具。
通讯作者耿新是东南大学首席教授,长期深耕机器学习与大模型领域,发表论文230余篇,获得多项国家级荣誉。另一位通讯作者祁磊副研究员专注于计算机视觉与模式识别,发表论文60余篇,主持多项科研项目。
论文链接:https://arxiv.org/pdf/2602.20208
参考链接:
耿新主页:https://palm.seu.edu.cn/xgeng/
祁磊主页:https://palm.seu.edu.cn/qilei/
-
2026-04-22 17:22:29 -
2026-04-22 17:21:24 -
2026-04-22 17:20:17