标题:北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
近年来,多模态大模型在视觉理解任务中表现优异,但在层级视觉识别中仍存在不足。例如,生物分类体系中的“界—门—纲—目—科—属—种”等层级结构需要模型理解类别间的语义关系,而现有模型常因扁平分类框架导致层级冲突或路径错误。此外,在开放世界环境中,模型还需具备识别未知类别的能力,这对传统方法提出了挑战。
针对这些问题,北大王选所彭宇新团队提出了一种新方法TARA(Taxonomy-Aware Representation Alignment)。该方法通过引入生物基础模型的分类学知识,并将其与多模态模型的中间表征对齐,使模型能够学习层级化的视觉表示,从而提升层级分类一致性及未知类别泛化能力。
实验结果显示,TARA在多个数据集上表现优异。例如,在iNaturalist-2021数据集上,Qwen3-VL-2B模型的层级一致性准确率(HCA)从9.23%提升至12.78%,叶节点准确率(Accleaf)从31.96%提升至32.66%。对于更大规模的Qwen2.5-VL-3B模型,植物和动物数据集上的HCA分别提升至19.53%和24.02%。在未知类别识别测试中,TARA同样显著提升了模型性能,Order F1和Family F1指标均有明显增长。
研究还验证了TARA在复杂视觉问答任务中的效果。在ImageWikiQA数据集上,模型准确率从46.60%提升至51.40%。此外,TARA仅增加少量计算开销,却能加速训练收敛过程,显示出高效性。
为验证方法有效性,团队设计了完整的实验框架,包括iNaturalist-2021、TerraIncognita和ImageWikiQA等多个数据集,以及多种评价指标如HCA、Accleaf和POR等。训练过程中,团队结合强化学习微调与TARA表征对齐策略,通过视觉和标签表示对齐注入分类学知识,优化模型的层级识别能力。
这项研究不仅提升了多模态模型在层级视觉识别中的表现,还为未知类别推断提供了新思路,具有广泛的应用前景,如医学影像分类和商品分类等。
论文一作为何胡凌霄,现为北京大学博士生,主要研究方向为细粒度视觉识别和多模态大模型。通讯作者彭宇新是北京大学教授,长期从事多媒体分析与计算机视觉研究,发表高水平论文170余篇,主持多项国家级科研项目,成果广泛应用于实际场景。
论文地址:https://arxiv.org/pdf/2603.00431
-
2026-03-19 01:10:45 -
2026-03-18 23:04:25 -
2026-03-18 23:03:20