1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

国产多模态Agent实现医学分割新突破!无需修改模型、不引入额外token

近日,浙江大学蔡钰祥教授与上海人工智能实验室江彦开研究员团队提出了一种全新的生物医学视觉推理框架——IBISAgent,被CVPR 2026接收。该框架通过将医学图像分割任务重新定义为多步决策过程,解决了现有方法的诸多瓶颈。

人类专家在标注医学图像时,通常会经过多轮观察、思考和调整,而现有模型普遍采用“单次前向推理”,直接输出分割结果。这种方法面对复杂病灶边界或模糊语义时常显不足。此外,现有技术常依赖隐式分割token(如<SEG>),这不仅破坏了模型的语言推理能力,还限制了泛化性能。

IBISAgent的核心创新在于: 1. 多步马尔可夫决策建模:用交错的文本推理与点击动作替代隐式token,保留语言推理能力,同时支持多轮迭代优化。 2. 两阶段训练框架: - 冷启动SFT:利用自动生成的456K条高质量推理轨迹进行监督微调,覆盖正常标注与错误纠正两类轨迹。 - 强化学习(RL):设计细粒度奖励机制,引导模型逐步优化分割策略,避免冗余操作。 3. 闭环交互设计:每一步结合推理(Textual Thinking)、行动(Action)和观测(Observation),形成视觉感知与语言推理的闭环。

实验表明,IBISAgent在多个benchmark上大幅领先现有方法,包括域内测试集、域外泛化集和私有数据集。相比医学专用MLLM基线,其平均IoU提升35.13%,DSC提升37.58%,F1提升29.79%。即便与调用相同工具的增强型Agent(如GPT-4o、LLaVA-Med)相比,IBISAgent仍表现出显著优势。

消融实验进一步验证了冷启动SFT、自我反思轨迹和RL的重要性,尤其是RL阶段带来的性能跃升最为显著。此外,细粒度奖励设计有效提升了分割效率,将平均交互步数从11.29降至4.26,同时保持高质量分割。

这项研究推动了医学图像分割从“单次推理”到“多轮交互决策”的转变,为智能医学图像分析系统的发展奠定了基础。

论文链接:https://arxiv.org/abs/2601.03054
代码链接:https://github.com/Yankai96/IBISAgent

原文链接
本文链接:https://kx.umi6.com/article/35078.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球首个世界统一模型发布,机器人家庭成员来了!
2026-04-22 14:07:52
英伟达接洽韩国电力设备企业 讨论800V直流系统合作
2026-04-22 17:20:17
华为公有云总裁胡玉海:未来数据中心将从“算力中心”转型为“Token工厂”
2026-04-21 14:07:13
一季度公募基金重点增配信息技术等板块
2026-04-22 07:53:45
香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖
2026-04-22 18:21:40
5月20日,马上AI起来!中国AIGC产业峰会报名已启动|首波嘉宾官宣
2026-04-21 20:21:17
中马新星产业发展基金将于今年6月正式成立总规模50亿美元
2026-04-21 16:13:35
天立启鸣AI研究院院长刘志毅,入选2025福布斯中国科创人物
2026-04-21 13:02:46
SpaceX放出“IPO重磅炸弹”:公司太空AI技术未经验证 未必能商业化
2026-04-22 08:57:04
小鹏汽车前副总裁李力耘加入众擎机器人
2026-04-21 19:22:52
广东:推动脑机接口和具身智能等人工智能前沿技术的融合
2026-04-22 17:25:47
经济日报:用好我国的词元优势
2026-04-22 06:49:31
西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026
2026-04-22 15:17:17
24小时热文
更多
扫一扫体验小程序