36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26
超声影像因实时、无辐射的特点,成为临床诊断的重要工具。然而,由于解剖结构异质性强、诊断属性多样,现有通用视觉语言模型难以适配超声场景,且医疗跨模态数据中超声样本占比不足5%,成为研究瓶颈。
针对这一问题,浙大城市学院联合浙江大学、香港城市大学等团队,构建了首个大规模超声图像-文本数据集US-365K,并提出专为超声设计的语义感知对比学习框架Ultrasound-CLIP,让AI深入理解超声临床诊断语义。相关成果被CVPR 2026接收,数据集与代码已开源。
核心痛点:超声跨模态学习的三重障碍
现有模型在超声领域的应用面临三大挑战:
1. 数据缺口显著:主流医疗数据集以CT、MRI为主,超声样本稀缺,缺乏专属训练数据;
2. 语义模糊难对齐:诊断报告表述多样,传统方法难以精准界定正负样本;
3. 缺乏临床结构先验:通用模型无法建模病灶与诊断属性的复杂关联,仅能实现简单关键词匹配。
解决方案:标准化数据与定制化模型双突破
第一步:构建UDT知识框架,打造US-365K数据集
团队建立超声诊断分类体系(UDT),包含两大核心模块:
- 超声层级解剖分类(UHAT):梳理9大人体系统、52个器官的解剖结构,实现标注标准化;
- 超声诊断属性框架(UDAF):定义9大诊断维度(如形状、回声性等),形成标准化描述体系。
基于UDT框架,团队从国际权威数据库收集体量数据,经精细化处理与专家审核,最终构建出US-365K数据集,包含36.4万对超声图文样本,覆盖全解剖区域,填补行业空白。
第二步:提出Ultrasound-CLIP框架,精准建模超声语义
团队设计Ultrasound-CLIP框架,在经典双编码器基础上创新融入两大模块:
1. UDAF引导的异质图编码器:将诊断标签转化为异质图,建模病灶与属性的结构化关联;
2. 基于UDAF的语义软标签:通过连续相似度矩阵解决语义模糊问题。
框架采用双目标优化策略,结合对比损失与语义损失,实现图像-文本精准对齐与细粒度语义捕捉。
实验验证:性能领先,泛化能力强
实验表明,Ultrasound-CLIP在多任务分类、图文检索及下游泛化任务中全面优于现有基线模型:
- 多任务分类准确率达59.61%,核心属性识别率超80%;
- 图像-文本检索效率高,I2T@10达37.45%,T2I@50达80.22%;
- 在乳腺、胃肠等下游数据集中表现优异,适配多种临床场景。
资源开源:推动超声AI研究
团队已公开代码与数据集,助力超声跨模态学习领域发展。
论文地址:http://arxiv.org/abs/2604.01749
项目地址:https://github.com/ZJUDataIntelligence/Ultrasound-CLIP
数据集地址:https://huggingface.co/datasets/JJY-0823/US-365K
-
2026-04-12 19:17:19 -
2026-04-12 19:16:14 -
2026-04-12 18:13:05