北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

2026-03-18 15:28:55

智慧棱镜

发布在

科普

阅读：1134

标题：北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

近年来，多模态大模型在视觉理解任务中表现优异，但在层级视觉识别中仍存在不足。例如，生物分类体系中的“界—门—纲—目—科—属—种”等层级结构需要模型理解类别间的语义关系，而现有模型常因扁平分类框架导致层级冲突或路径错误。此外，在开放世界环境中，模型还需具备识别未知类别的能力，这对传统方法提出了挑战。

针对这些问题，北大王选所彭宇新团队提出了一种新方法TARA（Taxonomy-Aware Representation Alignment）。该方法通过引入生物基础模型的分类学知识，并将其与多模态模型的中间表征对齐，使模型能够学习层级化的视觉表示，从而提升层级分类一致性及未知类别泛化能力。

实验结果显示，TARA在多个数据集上表现优异。例如，在iNaturalist-2021数据集上，Qwen3-VL-2B模型的层级一致性准确率（HCA）从9.23%提升至12.78%，叶节点准确率（Accleaf）从31.96%提升至32.66%。对于更大规模的Qwen2.5-VL-3B模型，植物和动物数据集上的HCA分别提升至19.53%和24.02%。在未知类别识别测试中，TARA同样显著提升了模型性能，Order F1和Family F1指标均有明显增长。

研究还验证了TARA在复杂视觉问答任务中的效果。在ImageWikiQA数据集上，模型准确率从46.60%提升至51.40%。此外，TARA仅增加少量计算开销，却能加速训练收敛过程，显示出高效性。

为验证方法有效性，团队设计了完整的实验框架，包括iNaturalist-2021、TerraIncognita和ImageWikiQA等多个数据集，以及多种评价指标如HCA、Accleaf和POR等。训练过程中，团队结合强化学习微调与TARA表征对齐策略，通过视觉和标签表示对齐注入分类学知识，优化模型的层级识别能力。

这项研究不仅提升了多模态模型在层级视觉识别中的表现，还为未知类别推断提供了新思路，具有广泛的应用前景，如医学影像分类和商品分类等。

论文一作为何胡凌霄，现为北京大学博士生，主要研究方向为细粒度视觉识别和多模态大模型。通讯作者彭宇新是北京大学教授，长期从事多媒体分析与计算机视觉研究，发表高水平论文170余篇，主持多项国家级科研项目，成果广泛应用于实际场景。

论文地址：https://arxiv.org/pdf/2603.00431

原文链接

本文链接：https://kx.umi6.com/article/33877.html

转载请注明文章出处

TARA方法