1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026

近年来,多模态大模型在视觉理解任务中表现优异,但在层级视觉识别中仍存在不足。例如,生物分类体系中的“界—门—纲—目—科—属—种”等层级结构需要模型理解类别间的语义关系,而现有模型常因扁平分类框架导致层级冲突或路径错误。此外,在开放世界环境中,模型还需具备识别未知类别的能力,这对传统方法提出了挑战。

针对这些问题,北大王选所彭宇新团队提出了一种新方法TARA(Taxonomy-Aware Representation Alignment)。该方法通过引入生物基础模型的分类学知识,并将其与多模态模型的中间表征对齐,使模型能够学习层级化的视觉表示,从而提升层级分类一致性及未知类别泛化能力。

实验结果显示,TARA在多个数据集上表现优异。例如,在iNaturalist-2021数据集上,Qwen3-VL-2B模型的层级一致性准确率(HCA)从9.23%提升至12.78%,叶节点准确率(Accleaf)从31.96%提升至32.66%。对于更大规模的Qwen2.5-VL-3B模型,植物和动物数据集上的HCA分别提升至19.53%和24.02%。在未知类别识别测试中,TARA同样显著提升了模型性能,Order F1和Family F1指标均有明显增长。

研究还验证了TARA在复杂视觉问答任务中的效果。在ImageWikiQA数据集上,模型准确率从46.60%提升至51.40%。此外,TARA仅增加少量计算开销,却能加速训练收敛过程,显示出高效性。

为验证方法有效性,团队设计了完整的实验框架,包括iNaturalist-2021、TerraIncognita和ImageWikiQA等多个数据集,以及多种评价指标如HCA、Accleaf和POR等。训练过程中,团队结合强化学习微调与TARA表征对齐策略,通过视觉和标签表示对齐注入分类学知识,优化模型的层级识别能力。

这项研究不仅提升了多模态模型在层级视觉识别中的表现,还为未知类别推断提供了新思路,具有广泛的应用前景,如医学影像分类和商品分类等。

论文一作为何胡凌霄,现为北京大学博士生,主要研究方向为细粒度视觉识别和多模态大模型。通讯作者彭宇新是北京大学教授,长期从事多媒体分析与计算机视觉研究,发表高水平论文170余篇,主持多项国家级科研项目,成果广泛应用于实际场景。

论文地址:https://arxiv.org/pdf/2603.00431

原文链接
本文链接:https://kx.umi6.com/article/33877.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
中国第一,全球第二,视频大模型领军者生数科技完成超 6 亿元A+轮融资
2026-02-06 17:02:51
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
挑战高考数学完胜!商汤日日新多模态大模型权威评测第一
2024-12-19 20:05:26
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
24小时热文
更多
扫一扫体验小程序