1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架

多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LIRA,包含两个核心模块:语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)。

SEFE融合语义特征与像素级特征,提升物体属性推理能力,从而实现更精确的分割;ILVC通过分割掩码提取局部特征并生成描述,为模型提供细粒度监督,有效减少幻觉现象。实验表明,LIRA在分割和理解任务上均达到SOTA性能,相比OMG-LLaVA,其分割精度提升8.5%,在MMBench上提升33.2%。

现有方法在复杂场景中常无法准确分割目标,例如未能正确分割“最靠近白色汽车的红色公交车”。研究发现,这源于多模态模型未能有效编码位置信息,且局部特征与文本描述之间缺乏明确联系。基于此,LIRA通过SEFE和ILVC模块,建立局部图像区域与语义描述的显式映射,显著缓解了分割误差和幻觉问题。

实验结果显示,整合SEFE后,理解任务平均提升5.7%,分割任务提升3.8%;加入ILVC后,幻觉率进一步降低3%-4.8%。此外,LIRA在联合训练理解与分割数据时性能稳定,优于先前方法。研究还发现,token logits能反映分割物体的属性,可能蕴含丰富的语义信息,为未来研究提供了新方向。

LIRA已被ICCV 2025录用,项目代码和论文已开源。
arXiv: https://arxiv.org/abs/2507.06272
GitHub: https://github.com/echo840/LIRA

原文链接
本文链接:https://kx.umi6.com/article/26229.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
2024-05-27 16:15:00
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
2025-02-18 11:13:42
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
阶跃星辰走「窄门」
2025-06-12 18:36:57
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单
2025-09-10 17:39:23
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
24小时热文
更多
扫一扫体验小程序