用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架
多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LIRA,包含两个核心模块:语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)。
SEFE融合语义特征与像素级特征,提升物体属性推理能力,从而实现更精确的分割;ILVC通过分割掩码提取局部特征并生成描述,为模型提供细粒度监督,有效减少幻觉现象。实验表明,LIRA在分割和理解任务上均达到SOTA性能,相比OMG-LLaVA,其分割精度提升8.5%,在MMBench上提升33.2%。
现有方法在复杂场景中常无法准确分割目标,例如未能正确分割“最靠近白色汽车的红色公交车”。研究发现,这源于多模态模型未能有效编码位置信息,且局部特征与文本描述之间缺乏明确联系。基于此,LIRA通过SEFE和ILVC模块,建立局部图像区域与语义描述的显式映射,显著缓解了分割误差和幻觉问题。
实验结果显示,整合SEFE后,理解任务平均提升5.7%,分割任务提升3.8%;加入ILVC后,幻觉率进一步降低3%-4.8%。此外,LIRA在联合训练理解与分割数据时性能稳定,优于先前方法。研究还发现,token logits能反映分割物体的属性,可能蕴含丰富的语义信息,为未来研究提供了新方向。
LIRA已被ICCV 2025录用,项目代码和论文已开源。
arXiv: https://arxiv.org/abs/2507.06272
GitHub: https://github.com/echo840/LIRA
原文链接
本文链接:https://kx.umi6.com/article/26229.html
转载请注明文章出处
相关推荐
换一换
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
2025-05-28 16:33:14
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
601 文章
340675 浏览
24小时热文
更多
-
2025-12-11 00:19:01 -
2025-12-11 00:15:55 -
2025-12-10 23:15:05