7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”
上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,提出两项ICML 2026接收的研究,首次将“Think with Images/Videos”范式引入医学AI领域。这一新方法让模型在推理中主动调用视觉工具,重新观察关键区域或时刻,并用新证据修正判断,使视觉证据成为思考过程的一部分。
传统医学多模态模型通常将影像或视频编码为特征后生成答案和解释,但这种方式容易漏掉微小病灶或关键时刻。LeapQuest团队的两项工作——Ophiuchus(面向医学图像)和MedScope(面向临床长视频),通过让模型主动决定“看哪里”“怎么看”,实现了从被动输入到主动推理的转变。
Ophiuchus通过集成SAM2、BiomedParse等工具,支持精细分割、结构定位和局部放大,帮助模型在诊断中主动寻找和验证证据。实验显示,Ophiuchus-7B在8个VQA基准测试中平均得分68.0,超越OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和GPT-5(59.9)。
MedScope则针对长视频挑战,模拟医生回看关键片段的方式,结合crop_video、get_frame等工具截取局部视频或帧,形成可审查的推理链。其训练数据集ClinVideoSuite包含635K时间戳密集标注和254K证据关联问答,强调细粒度时序推理。
两项研究共同定义了一种新范式:模型不再仅依赖语言链条,而是通过语言、工具、图像区域、视频片段和证据反馈的闭环交互进行动态视觉探索。这不仅减少了幻觉,还增强了可解释性和复杂流程适配能力。
LeapQuest团队表示,医学AI的核心在于建立“假设-查证-修正-回答”的循环,让模型像临床医生一样边看边想。这是医学AI迈向可信推理的关键一步。
项目GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus
-
2026-05-28 22:40:41 -
2026-05-28 21:38:24 -
2026-05-28 19:37:02