1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:东南大学耿新团队:模型能力“被挤掉”问题的解决方案丨CVPR 2026

正文:
当一个模型不断加入新任务时,原本表现良好的能力可能开始下降。这并非模型不会,而是因为多任务共享同一套内部表示空间,导致任务间争夺资源,部分能力被“挤掉”。这种现象在持续迭代的系统中尤为常见,新增能力往往影响已有能力,使系统变得不稳定。

针对这一问题,东南大学耿新团队提出了论文《Model Merging in the Essential Subspace》,聚焦于模型中“重要信息到底在哪里”。研究表明,模型的有效能力集中在少数关键方向上,而非均匀分布。因此,多任务融合失败的原因在于这些关键方向发生了冲突。团队通过两项核心步骤解决此问题:一是分离不同任务的重要方向,避免冲突;二是保留重要信息,抑制噪声,从而实现多任务稳定共存。

团队提出的方法称为ESM(Essential Subspace Merging),相比传统方法,ESM在多任务增加时性能更稳定。实验显示,当任务增多时,传统方法性能损耗达8%-9%,而ESM的损耗率降低约20%。此外,ESM在大模型上的提升虽略有缩小,但其价值在于为小模型提供清晰的子空间解耦机制。

研究还发现,仅保留5%的关键成分即可接近单任务微调效果,说明任务知识集中在少数功能性更强的方向上。同时,ESM对数据依赖性低,即使使用少量样本也能快速收敛,证明任务子空间是一种低维结构。

团队进一步优化了融合策略,包括采用ESD分解方式、正交化处理和权重分配规则,确保任务间的公平表达。这些方法不仅提升了性能,还揭示了深度模型内部的知识组织方式:任务知识虽然存在于高维参数中,但真正决定性能的变化集中在少数方向上。

这项研究的意义不仅在于提出了一种更强的融合方法,还重新定义了模型融合问题,从参数拼接转向知识结构重组。未来,AI系统有望在不反复重训的情况下整合多种能力,且更加稳定高效。这将推动学术界对模型内部机制的理解,并为普通人带来更智能、更便捷的AI工具。

通讯作者耿新是东南大学首席教授,长期深耕机器学习与大模型领域,发表论文230余篇,获得多项国家级荣誉。另一位通讯作者祁磊副研究员专注于计算机视觉与模式识别,发表论文60余篇,主持多项科研项目。

论文链接:https://arxiv.org/pdf/2602.20208
参考链接:
耿新主页:https://palm.seu.edu.cn/xgeng/
祁磊主页:https://palm.seu.edu.cn/qilei/

原文链接
本文链接:https://kx.umi6.com/article/35070.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
三友医疗等成立智能医疗科技公司 含AI及机器人业务
2026-04-22 09:59:50
全球首个世界统一模型发布,机器人家庭成员来了!
2026-04-22 14:07:52
OpenAI发布Images 2 获机构Arena.ai测评第一
2026-04-22 16:21:00
ISC.AI 2026创新独角兽沙盒大赛在京启动 聚焦智能体 共筑AI创新生态
2026-04-21 17:13:01
AMD将与格方罗德合作开发CPO解决方案
2026-04-21 19:21:47
寒武纪回应互联网大厂自研芯片影响:公司产品对各类人工智能技术具备较好普适性
2026-04-22 15:25:07
特斯拉AI语音功能即将上线
2026-04-22 13:10:38
清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026
2026-04-22 15:20:13
上海:开展人工智能知识产权快速协同保护指南编制
2026-04-21 17:16:47
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
2026-04-21 17:14:35
蚂蚁技术研究院副院长吕乐当选美国医学与生物工程院(AIMBE)Fellow
2026-04-21 15:10:32
华为公有云总裁胡玉海:未来数据中心将从“算力中心”转型为“Token工厂”
2026-04-21 14:07:13
SpaceX放出“IPO重磅炸弹”:公司太空AI技术未经验证 未必能商业化
2026-04-22 08:57:04
24小时热文
更多
扫一扫体验小程序