1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。

当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中,模型往往难以应对未知的交互情况。CMMP方法有效解决了这一难题,通过在特征提取过程中引入视觉空间线索,帮助模型识别未见过的人物-物体交互概念,并通过条件提示学习提高模型对未见类别的泛化能力。

CMMP方法被应用于零样本人类-对象交互(HOI)检测,将任务分解为视觉特征提取和交互分类两个子任务。为每个子任务分别设计了解耦的视觉和文本提示,以消除依赖性并减轻错误传播。通过条件视觉提示注入空间和交互性感知知识,同时利用实例级视觉先验和交互的全局空间模式约束;条件语言提示则通过正则化损失约束学习到的人工设计提示,以保持已见和未见类别的原型间合理分离边界。

在零样本性能验证中,CMMP方法在HICO-DET数据集上展现出显著优势,在未见类别的交互检测上取得了最佳性能,表明引入条件多模态提示的有效性。与现有方法相比,CMMP方法在视觉特征提取和交互分类方面表现出色,尤其在泛化到未见交互类别时,显示出强大潜力。

原文链接
本文链接:https://kx.umi6.com/article/4935.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
2024-08-14 10:50:04
阿里国际AI翻译模型Marco霸榜WMT机器翻译大赛最难赛道,拿下六项冠军
2025-10-23 15:07:52
全球最薄仿生视触觉传感器亮相IROS 2025,一目科技引领机器人“触觉革命”
2025-10-23 15:08:17
新石器公司完成逾6亿美元D轮融资
2025-10-23 15:12:58
科技部部长阴和俊:持续加强“十五五”人工智能顶层设计和体系化部署 聚力开发新的模型算法、高端算力芯片
2025-10-24 12:39:31
OpenAI 预告“AI 浏览器”ChatGPT Atlas 未来更新:标签组、广告拦截器等
2025-10-24 09:30:10
AMD 确认 Radeon AI PRO R9700 32GB 显卡 10 月 27 日零售上市,1299 美元起
2025-10-24 08:28:19
AI推动芯片需求!英特尔三季报超预期 盘后股价大涨近9%
2025-10-24 09:33:43
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
快手进军AICoding赛道
2025-10-23 16:11:06
科技部部长阴和俊:强化算力、算法、数据等高效供给 全面实施人工智能+行动
2025-10-24 11:39:17
OpenAI 提供英国本地数据存储选项,英司法部雇员导入 ChatGPT
2025-10-24 18:47:26
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
24小时热文
更多
扫一扫体验小程序