北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。
当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中,模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题,通过在特征提取过程中引入视觉空间线索,帮助模型识别未见过的人物-物体交互概念,并通过条件提示学习提高模型对未见类别的泛化能力。
CMMP方法被应用于零样本人类-对象交互(HOI)检测,将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示,以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识,同时利用实例级视觉先验和交互的全局空间模式约束;条件语言提示则通过正则化损失约束学习到的人工设计提示,以保持已见和未见类别的原型间合理分离边界。
在零样本性能验证中,CMMP方法在HICO-DET数据集上展现出显著优势,在未见类别的交互检测上取得了最佳性能,表明引入条件多模态提示的有效性。与现有方法相比,CMMP方法在视觉特征提取和交互分类方面表现出色,尤其在泛化到未见交互类别时,显示出强大潜力。
原文链接
本文链接:https://kx.umi6.com/article/4935.html
转载请注明文章出处
相关推荐
换一换
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
2024-08-14 10:50:04
广西“十五五”规划建议:打造面向东盟开放合作高能级平台
2025-12-07 10:24:46
OpenAI:科技、医疗和制造业是人工智能增长最快的行业
2025-12-08 20:47:34
AI芯片明年6倍增长 百度回应昆仑芯上市计划:不保证会进行
2025-12-07 21:51:01
央视起底 AI 带娃现象,专家称沉迷或阻碍低龄儿童认知发育
2025-12-06 16:37:45
英伟达巧用8B模型秒掉GPT-5,开源了
2025-12-06 14:32:11
华为面向医疗领域发布 AI 数据平台,涵盖知识生成与检索等
2025-12-07 18:40:26
谷歌憋了十年的大招,让英伟达好日子到头了?
2025-12-08 12:25:18
工信部召开务虚会 研究谋划“十五五”及开局之年工作
2025-12-07 15:35:49
OpenAI:ChatGPT 目前每周为超过 8 亿用户提供服务
2025-12-08 22:51:33
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
河南“十五五”规划建议:全面实施“人工智能+”行动 建设重点行业领域垂直大模型
2025-12-08 08:15:51
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
592 文章
345999 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57