1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架

多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LIRA,包含两个核心模块:语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)。

SEFE融合语义特征与像素级特征,提升物体属性推理能力,从而实现更精确的分割;ILVC通过分割掩码提取局部特征并生成描述,为模型提供细粒度监督,有效减少幻觉现象。实验表明,LIRA在分割和理解任务上均达到SOTA性能,相比OMG-LLaVA,其分割精度提升8.5%,在MMBench上提升33.2%。

现有方法在复杂场景中常无法准确分割目标,例如未能正确分割“最靠近白色汽车的红色公交车”。研究发现,这源于多模态模型未能有效编码位置信息,且局部特征与文本描述之间缺乏明确联系。基于此,LIRA通过SEFE和ILVC模块,建立局部图像区域与语义描述的显式映射,显著缓解了分割误差和幻觉问题。

实验结果显示,整合SEFE后,理解任务平均提升5.7%,分割任务提升3.8%;加入ILVC后,幻觉率进一步降低3%-4.8%。此外,LIRA在联合训练理解与分割数据时性能稳定,优于先前方法。研究还发现,token logits能反映分割物体的属性,可能蕴含丰富的语义信息,为未来研究提供了新方向。

LIRA已被ICCV 2025录用,项目代码和论文已开源。
arXiv: https://arxiv.org/abs/2507.06272
GitHub: https://github.com/echo840/LIRA

原文链接
本文链接:https://kx.umi6.com/article/26229.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
2025-11-20 16:32:05
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
2026-03-18 15:28:55
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
2025-11-27 16:44:41
24小时热文
更多
扫一扫体验小程序