北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。
当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中,模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题,通过在特征提取过程中引入视觉空间线索,帮助模型识别未见过的人物-物体交互概念,并通过条件提示学习提高模型对未见类别的泛化能力。
CMMP方法被应用于零样本人类-对象交互(HOI)检测,将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示,以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识,同时利用实例级视觉先验和交互的全局空间模式约束;条件语言提示则通过正则化损失约束学习到的人工设计提示,以保持已见和未见类别的原型间合理分离边界。
在零样本性能验证中,CMMP方法在HICO-DET数据集上展现出显著优势,在未见类别的交互检测上取得了最佳性能,表明引入条件多模态提示的有效性。与现有方法相比,CMMP方法在视觉特征提取和交互分类方面表现出色,尤其在泛化到未见交互类别时,显示出强大潜力。
原文链接
本文链接:https://kx.umi6.com/article/4935.html
转载请注明文章出处
相关推荐
.png)
换一换
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
2024-08-14 10:50:04
字节发了个机器人全能大模型,带队人李航
2025-09-06 12:34:33
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
机构:AI与通用型服务器驱动需求 2025年第二季前五大企业级SSD品牌厂营收季增12.7%
2025-09-08 12:57:57
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
蚂蚁国际推出 AI 智能体支付解决方案,可识别用户支付意图、全流程追溯询证
2025-09-05 15:20:28
中信证券:AI对计算机板块的增长贡献将进一步提升 看好新一轮行情机遇
2025-09-08 08:59:49
傅利叶首款陪伴机器人 GR-3 开启预售:身高 165cm,全身柔肤软包
2025-09-08 10:54:56
两部门:基于人工智能技术开展可控核聚变智能控制系统研究
2025-09-08 10:58:39
OpenAI重组ChatGPT个性研究团队!
2025-09-06 11:36:18
通用人工智能就在身边,为何我们感知却不明显?
2025-09-08 09:58:00
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
上海:支持“AI+数字广告”产业创新服务平台建设 最高给予2000万元支持
2025-09-08 12:00:32
495 文章
181886 浏览
24小时热文
更多

-
2025-09-08 14:00:34
-
2025-09-08 13:59:39
-
2025-09-08 13:58:15