用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架
多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LIRA,包含两个核心模块:语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)。
SEFE融合语义特征与像素级特征,提升物体属性推理能力,从而实现更精确的分割;ILVC通过分割掩码提取局部特征并生成描述,为模型提供细粒度监督,有效减少幻觉现象。实验表明,LIRA在分割和理解任务上均达到SOTA性能,相比OMG-LLaVA,其分割精度提升8.5%,在MMBench上提升33.2%。
现有方法在复杂场景中常无法准确分割目标,例如未能正确分割“最靠近白色汽车的红色公交车”。研究发现,这源于多模态模型未能有效编码位置信息,且局部特征与文本描述之间缺乏明确联系。基于此,LIRA通过SEFE和ILVC模块,建立局部图像区域与语义描述的显式映射,显著缓解了分割误差和幻觉问题。
实验结果显示,整合SEFE后,理解任务平均提升5.7%,分割任务提升3.8%;加入ILVC后,幻觉率进一步降低3%-4.8%。此外,LIRA在联合训练理解与分割数据时性能稳定,优于先前方法。研究还发现,token logits能反映分割物体的属性,可能蕴含丰富的语义信息,为未来研究提供了新方向。
LIRA已被ICCV 2025录用,项目代码和论文已开源。
arXiv: https://arxiv.org/abs/2507.06272
GitHub: https://github.com/echo840/LIRA
原文链接
本文链接:https://kx.umi6.com/article/26229.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰走“窄门”
2025-06-12 22:41:52
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
挑战高考数学完胜!商汤日日新多模态大模型权威评测第一
2024-12-19 20:05:26
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
678 文章
468498 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43