1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,提出两项ICML 2026接收的研究,首次将“Think with Images/Videos”范式引入医学AI领域。这一新方法让模型在推理中主动调用视觉工具,重新观察关键区域或时刻,并用新证据修正判断,使视觉证据成为思考过程的一部分。

传统医学多模态模型通常将影像或视频编码为特征后生成答案和解释,但这种方式容易漏掉微小病灶或关键时刻。LeapQuest团队的两项工作——Ophiuchus(面向医学图像)和MedScope(面向临床长视频),通过让模型主动决定“看哪里”“怎么看”,实现了从被动输入到主动推理的转变。

Ophiuchus通过集成SAM2、BiomedParse等工具,支持精细分割、结构定位和局部放大,帮助模型在诊断中主动寻找和验证证据。实验显示,Ophiuchus-7B在8个VQA基准测试中平均得分68.0,超越OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和GPT-5(59.9)。

MedScope则针对长视频挑战,模拟医生回看关键片段的方式,结合crop_video、get_frame等工具截取局部视频或帧,形成可审查的推理链。其训练数据集ClinVideoSuite包含635K时间戳密集标注和254K证据关联问答,强调细粒度时序推理。

两项研究共同定义了一种新范式:模型不再仅依赖语言链条,而是通过语言、工具、图像区域、视频片段和证据反馈的闭环交互进行动态视觉探索。这不仅减少了幻觉,还增强了可解释性和复杂流程适配能力。

LeapQuest团队表示,医学AI的核心在于建立“假设-查证-修正-回答”的循环,让模型像临床医生一样边看边想。这是医学AI迈向可信推理的关键一步。

项目GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus

原文链接
本文链接:https://kx.umi6.com/article/36287.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
你以为的DeepSeek推理,可能只是文字魔术
2025-02-09 08:43:11
中国500万医生的新AI:顶刊独家联手,卷的就是证据源
2026-05-16 13:36:05
AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华
2026-02-08 15:11:38
“AI+医疗”再提速 上海拟打造全球医学AI高地 覆盖这些应用场景
2024-12-24 19:42:39
我国科学家建立生成式模型为医学 AI 训练提供技术支持
2024-12-17 20:10:52
深圳“十五五”规划纲要:大力发展基于开源鸿蒙操作系统和第五代精简指令集(RISC-V)芯片构建的嵌入式软件、基础软件模组
2026-05-26 12:31:39
MediaTek 以边缘到云端的次世代技术 全面赋能 Agentic AI 时代
2026-05-28 11:18:10
独家|许鹏出任连尚集团首席执行官 加速AI战略纵深突破
2026-05-28 12:20:26
知情人士:Fireworks AI正以150亿美元估值洽谈新一轮融资
2026-05-27 14:33:18
智谱等在上海成立人工智能产业创投合伙企业
2026-05-27 09:20:10
阿里云面向海外发布Qwen Cloud及MuleRun
2026-05-26 12:28:22
英矽智能与Human Longevity达成合作 共同开发业内首个面向长寿科学的AI基础模型
2026-05-27 09:19:06
被《极限竞速:地平线6》AI赛车手狂虐:人类玩家崩溃了
2026-05-26 12:26:08
24小时热文
更多
扫一扫体验小程序