1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。

当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中,模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题,通过在特征提取过程中引入视觉空间线索,帮助模型识别未见过的人物-物体交互概念,并通过条件提示学习提高模型对未见类别的泛化能力。

CMMP方法被应用于零样本人类-对象交互(HOI)检测,将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示,以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识,同时利用实例级视觉先验和交互的全局空间模式约束;条件语言提示则通过正则化损失约束学习到的人工设计提示,以保持已见和未见类别的原型间合理分离边界。

在零样本性能验证中,CMMP方法在HICO-DET数据集上展现出显著优势,在未见类别的交互检测上取得了最佳性能,表明引入条件多模态提示的有效性。与现有方法相比,CMMP方法在视觉特征提取和交互分类方面表现出色,尤其在泛化到未见交互类别时,显示出强大潜力。

原文链接
本文链接:https://kx.umi6.com/article/4935.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
2025-07-19 14:57:21
黄仁勋力赞 DeepSeek,称中国创新的步伐不可能被阻挡
2025-07-21 09:13:49
英伟达CEO黄仁勋:正在与小米共同开发人工智能、自动驾驶软件 还有很多项目正在合作
2025-07-21 15:18:28
24小时热文
更多
扫一扫体验小程序