让AI更懂物理世界！人大北邮上海AI Lab等提出多模态分割新方法

2024-08-30 15:26:10

阿达旻

发布在

快讯

阅读：169

【让AI更懂物理世界！人大北邮上海AI Lab等提出多模态分割新方法】近期，来自中国人民大学高瓴GeWu-Lab、北京邮电大学及上海AI Lab的研究人员共同提出了名为Ref-AVS（视听场景下的指代分割）的新方法，旨在让AI具备多模态线索下的定位与理解能力，更深入地理解真实物理世界。这一创新成果已被接受在即将到来的顶级会议ECCV2024上发表。 Ref-AVS方法整合了文本、音频与视觉信息，突破了传统分割技术的局限，如视频对象分割（VOS）、视频对象参考分割（Ref-VOS）及视听分割（AVS）。它通过综合多种模态，实现了对复杂视听场景中特定物体的精准定位，显著提高了AI理解动态真实世界的水平。例如，在一个视频中，Ref-AVS不仅能够准确识别出正在演奏乐器的人，还能高效处理同一段素材在不同场景下的应用，找出正在发声的乐器。为验证方法的有效性，研究人员构建了一个名为Ref-AVS Bench的数据集，包含40020个视频帧，涵盖了6888个物体和20261个指代表达式。数据集内包含多种类别，既包括发声物体，也包括静态、不可发声物体，旨在全面反映真实世界的多样性。此外，团队还设计了一个端到端框架，用于高效处理多模态线索，进一步提升了Ref-AVS在实际应用中的性能。实验结果显示，Ref-AVS在定量和定性测试中均表现出色，特别是在未见过的场景和空指代情况下，展现了强大的泛化能力和准确的跟随指代能力。相比于现有的方法，如AVSegFormer和ReferFormer，Ref-AVS在理解多模态表达和场景上下文方面展现出更优的表现，显著提高了分割精度。这项研究不仅推动了多模态分割技术的发展，也为AI在视频分析、医疗图像处理、自动驾驶和机器人导航等领域提供了新的可能性。未来，随着多模态融合技术的不断优化、模型实时性的提升以及数据集的持续扩展，Ref-AVS有望在更多挑战性场景中发挥重要作用。

原文链接

本文链接：https://kx.umi6.com/article/5671.html

转载请注明文章出处

AI物理世界理解