标题:北大彭宇新团队提出TARA方法,破解生物分层识别难题
正文:
一张蓝锥嘴雀的图片,普通人能认出它是“鸟”,但很难精准定位到“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”。现有的多模态大模型也面临类似问题。真实世界中的对象通常具有复杂的类别层次(如界-门-纲-目-科-属-种),而现有模型在分层视觉识别任务中,难以从粗到细实现每一层的精准识别。
北京大学彭宇新教授团队提出了一种名为分类感知表征对齐方法(TARA)的新技术,通过将生物基础模型的类别树知识注入多模态大模型,显著提升了分层视觉识别能力。该研究已被CVPR 2026接收,并已开源。
背景与挑战
现有多模态大模型在细粒度视觉识别上表现良好,但在分层视觉识别任务中存在三大挑战:
1. 同层判别性差:粗粒度类别类内差异大,细粒度类别类间差异小,模型难以区分相似类别。
2. 跨层一致性差:缺乏类别树知识,模型预测结果常违反父子节点关系。例如,“鹦鹉目”不应对应“裸鼻雀科”。
3. 新类泛化性差:模型忽略类别共性,难以识别未见过的新物种。
技术方案
TARA方法通过两步实现类别树知识的注入:
1. 分层视觉表征对齐:将大模型中间层与生物基础模型的视觉表征对齐,提取完整类别树结构的视觉特征。
2. 自由粒度类别表征对齐:对齐大模型输出答案的首个词元表征与生物基础模型的真实类别表征,确保模型能根据指定层次生成对应类别名称。
在训练阶段,采用强化微调和对齐损失优化模型;推理时,仅需优化后的大模型即可完成识别。
实验结果
实验表明,TARA方法在iNaturalist-Plant、iNaturalist-Animal等数据集上显著提升了分层视觉识别准确率,尤其在新物种识别任务中表现优异。这些新物种样本稀少,甚至可能是科学界尚未描述的新物种,传统模型难以处理。
项目价值
TARA方法通过引入类别树先验,增强了多模态大模型的分层视觉识别能力,解决了从粗到细精准识别的难题,为生物分类学研究提供了重要工具。
论文链接:https://arxiv.org/abs/2603.00431
开源代码:https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
-
2026-03-21 19:37:28 -
2026-03-21 18:30:50 -
2026-03-21 18:29:21