北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。
当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中,模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题,通过在特征提取过程中引入视觉空间线索,帮助模型识别未见过的人物-物体交互概念,并通过条件提示学习提高模型对未见类别的泛化能力。
CMMP方法被应用于零样本人类-对象交互(HOI)检测,将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示,以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识,同时利用实例级视觉先验和交互的全局空间模式约束;条件语言提示则通过正则化损失约束学习到的人工设计提示,以保持已见和未见类别的原型间合理分离边界。
在零样本性能验证中,CMMP方法在HICO-DET数据集上展现出显著优势,在未见类别的交互检测上取得了最佳性能,表明引入条件多模态提示的有效性。与现有方法相比,CMMP方法在视觉特征提取和交互分类方面表现出色,尤其在泛化到未见交互类别时,显示出强大潜力。
原文链接
本文链接:https://kx.umi6.com/article/4935.html
转载请注明文章出处
相关推荐
换一换
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
2024-08-14 10:50:04
日本人工智能创企Sakana AI宣布获谷歌投资
2026-01-23 16:04:10
Node.js之父:手写代码已死
2026-01-22 14:57:11
我国已累计推动价值超550亿元新材料产品进入市场
2026-01-21 17:24:39
成都国资开年「闪击战」背后的产业野望
2026-01-21 20:24:37
AI推理GPU芯片公司曦望完成近30亿元融资
2026-01-22 16:05:02
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
美国AI财大气粗 国产AI学不了:Kimi仅用了1%算力就超越主流闭源
2026-01-22 22:14:12
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI
2026-01-23 17:06:39
最新调仓路径显现 基金经理关注确定性与安全边际
2026-01-22 07:43:21
谷歌4D世界模型来了,比SOTA快300倍!
2026-01-23 17:05:32
英特尔CEO陈立武:AI需求强劲 对未能完全满足市场需求感到遗憾
2026-01-23 11:53:08
653 文章
431215 浏览
24小时热文
更多
-
2026-01-23 19:11:03 -
2026-01-23 19:08:58 -
2026-01-23 18:11:40