北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

2024-08-14 10:50:04

发布在

科普

阅读：257

北京大学王选计算机技术研究所发布了一项创新成果，针对多模态大模型在理解人类行为方面的局限性，提出了一种名为多模态提示学习（CMMP）的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系，尤其擅长处理未见过的人物交互类型。

当前，多数研究聚焦于封闭环境下的多模态模型，而在开放环境中，模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题，通过在特征提取过程中引入视觉空间线索，帮助模型识别未见过的人物-物体交互概念，并通过条件提示学习提高模型对未见类别的泛化能力。

CMMP方法被应用于零样本人类-对象交互（HOI）检测，将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示，以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识，同时利用实例级视觉先验和交互的全局空间模式约束；条件语言提示则通过正则化损失约束学习到的人工设计提示，以保持已见和未见类别的原型间合理分离边界。

在零样本性能验证中，CMMP方法在HICO-DET数据集上展现出显著优势，在未见类别的交互检测上取得了最佳性能，表明引入条件多模态提示的有效性。与现有方法相比，CMMP方法在视觉特征提取和交互分类方面表现出色，尤其在泛化到未见交互类别时，显示出强大潜力。

原文链接

本文链接：https://kx.umi6.com/article/4935.html

转载请注明文章出处

CMMP方法