国产多模态Agent实现医学分割新突破!无需修改模型、不引入额外token
近日,浙江大学蔡钰祥教授与上海人工智能实验室江彦开研究员团队提出了一种全新的生物医学视觉推理框架——IBISAgent,被CVPR 2026接收。该框架通过将医学图像分割任务重新定义为多步决策过程,解决了现有方法的诸多瓶颈。
人类专家在标注医学图像时,通常会经过多轮观察、思考和调整,而现有模型普遍采用“单次前向推理”,直接输出分割结果。这种方法面对复杂病灶边界或模糊语义时常显不足。此外,现有技术常依赖隐式分割token(如<SEG>),这不仅破坏了模型的语言推理能力,还限制了泛化性能。
IBISAgent的核心创新在于: 1. 多步马尔可夫决策建模:用交错的文本推理与点击动作替代隐式token,保留语言推理能力,同时支持多轮迭代优化。 2. 两阶段训练框架: - 冷启动SFT:利用自动生成的456K条高质量推理轨迹进行监督微调,覆盖正常标注与错误纠正两类轨迹。 - 强化学习(RL):设计细粒度奖励机制,引导模型逐步优化分割策略,避免冗余操作。 3. 闭环交互设计:每一步结合推理(Textual Thinking)、行动(Action)和观测(Observation),形成视觉感知与语言推理的闭环。
实验表明,IBISAgent在多个benchmark上大幅领先现有方法,包括域内测试集、域外泛化集和私有数据集。相比医学专用MLLM基线,其平均IoU提升35.13%,DSC提升37.58%,F1提升29.79%。即便与调用相同工具的增强型Agent(如GPT-4o、LLaVA-Med)相比,IBISAgent仍表现出显著优势。
消融实验进一步验证了冷启动SFT、自我反思轨迹和RL的重要性,尤其是RL阶段带来的性能跃升最为显著。此外,细粒度奖励设计有效提升了分割效率,将平均交互步数从11.29降至4.26,同时保持高质量分割。
这项研究推动了医学图像分割从“单次推理”到“多轮交互决策”的转变,为智能医学图像分析系统的发展奠定了基础。
论文链接:https://arxiv.org/abs/2601.03054
代码链接:https://github.com/Yankai96/IBISAgent
-
2026-04-22 19:24:53 -
2026-04-22 18:21:40 -
2026-04-22 17:32:28