用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

2025-10-03 13:39:17

智能视野

发布在

科普

阅读：2952

用两个简单模块实现分割理解双重SOTA！华科大白翔团队推出多模态新框架

多模态大模型的能力已从文生图扩展到像素级任务（如图像分割）。然而，现有方法如OMG-LLaVA和LISA（CVPR 2024）仍存在分割不精确和理解幻觉的问题。为解决这些问题，华中科技大学与金山办公团队联合提出了多模态大模型LIRA，包含两个核心模块：语义增强特征提取器（SEFE）和交错局部视觉耦合（ILVC）。

SEFE融合语义特征与像素级特征，提升物体属性推理能力，从而实现更精确的分割；ILVC通过分割掩码提取局部特征并生成描述，为模型提供细粒度监督，有效减少幻觉现象。实验表明，LIRA在分割和理解任务上均达到SOTA性能，相比OMG-LLaVA，其分割精度提升8.5%，在MMBench上提升33.2%。

现有方法在复杂场景中常无法准确分割目标，例如未能正确分割“最靠近白色汽车的红色公交车”。研究发现，这源于多模态模型未能有效编码位置信息，且局部特征与文本描述之间缺乏明确联系。基于此，LIRA通过SEFE和ILVC模块，建立局部图像区域与语义描述的显式映射，显著缓解了分割误差和幻觉问题。

实验结果显示，整合SEFE后，理解任务平均提升5.7%，分割任务提升3.8%；加入ILVC后，幻觉率进一步降低3%-4.8%。此外，LIRA在联合训练理解与分割数据时性能稳定，优于先前方法。研究还发现，token logits能反映分割物体的属性，可能蕴含丰富的语义信息，为未来研究提供了新方向。

LIRA已被ICCV 2025录用，项目代码和论文已开源。
arXiv: https://arxiv.org/abs/2507.06272
GitHub: https://github.com/echo840/LIRA

原文链接

本文链接：https://kx.umi6.com/article/26229.html

转载请注明文章出处

图像分割