1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

【让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法】 近期,来自中国人民大学高瓴GeWu-Lab、北京邮电大学及上海AI Lab的研究人员共同提出了名为Ref-AVS(视听场景下的指代分割)的新方法,旨在让AI具备多模态线索下的定位与理解能力,更深入地理解真实物理世界。这一创新成果已被接受在即将到来的顶级会议ECCV2024上发表。 Ref-AVS方法整合了文本、音频与视觉信息,突破了传统分割技术的局限,如视频对象分割(VOS)、视频对象参考分割(Ref-VOS)及视听分割(AVS)。它通过综合多种模态,实现了对复杂视听场景中特定物体的精准定位,显著提高了AI理解动态真实世界的水平。例如,在一个视频中,Ref-AVS不仅能够准确识别出正在演奏乐器的人,还能高效处理同一段素材在不同场景下的应用,找出正在发声的乐器。 为验证方法的有效性,研究人员构建了一个名为Ref-AVS Bench的数据集,包含40020个视频帧,涵盖了6888个物体和20261个指代表达式。数据集内包含多种类别,既包括发声物体,也包括静态、不可发声物体,旨在全面反映真实世界的多样性。此外,团队还设计了一个端到端框架,用于高效处理多模态线索,进一步提升了Ref-AVS在实际应用中的性能。 实验结果显示,Ref-AVS在定量和定性测试中均表现出色,特别是在未见过的场景和空指代情况下,展现了强大的泛化能力和准确的跟随指代能力。相比于现有的方法,如AVSegFormer和ReferFormer,Ref-AVS在理解多模态表达和场景上下文方面展现出更优的表现,显著提高了分割精度。 这项研究不仅推动了多模态分割技术的发展,也为AI在视频分析、医疗图像处理、自动驾驶和机器人导航等领域提供了新的可能性。未来,随着多模态融合技术的不断优化、模型实时性的提升以及数据集的持续扩展,Ref-AVS有望在更多挑战性场景中发挥重要作用。

原文链接
本文链接:https://kx.umi6.com/article/5671.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法
2024-08-30 15:26:10
2025年度AI十大趋势发布:AI重塑流量入口,开源AI已经进入中国时间
2025-12-11 14:57:11
慧思开物全局调度,北京人形推出全国首个全自主无人化导览解决方案
2025-12-11 14:53:48
争夺第一人口大国 AI 付费订阅市场,谷歌在印推出 399 卢比 Google AI Plus 计划
2025-12-11 10:42:07
钉钉又发新版本!把 AI 搬进每一次对话和会议
2025-12-11 15:58:59
5天连更5次,可灵AI年末“狂飙式”升级
2025-12-10 14:49:52
铭凡 MINISFORUM 联合 AMD 带来两款 AI 旗舰产品
2025-12-10 19:05:04
海德股份等成立智合科技公司 含AI相关业务
2025-12-11 12:50:14
阿里千问公测 23 天月活突破 3000 万,开放 AI PPT、文库等四项新功能
2025-12-10 12:46:18
最高二手价1.6万、日租400元:“豆包”手机衍生新灰产
2025-12-10 19:03:55
GPT-5.2 提前泄露?线索显示其已“超越 Gemini 3”
2025-12-11 16:00:08
导演陆川:将与 MiniMax 联合开发 AI 漫剧项目,后续持续合作落地院线电影和剧集
2025-12-10 21:08:44
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
2025-12-10 16:56:03
24小时热文
更多
扫一扫体验小程序