36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR’26

2026-04-12 16:06:44

Oasis

发布在

科普

阅读：346

36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR’26

超声影像因实时、无辐射的特点，成为临床诊断的重要工具。然而，由于解剖结构异质性强、诊断属性多样，现有通用视觉语言模型难以适配超声场景，且医疗跨模态数据中超声样本占比不足5%，成为研究瓶颈。

针对这一问题，浙大城市学院联合浙江大学、香港城市大学等团队，构建了首个大规模超声图像-文本数据集US-365K，并提出专为超声设计的语义感知对比学习框架Ultrasound-CLIP，让AI深入理解超声临床诊断语义。相关成果被CVPR 2026接收，数据集与代码已开源。

核心痛点：超声跨模态学习的三重障碍

现有模型在超声领域的应用面临三大挑战：
1. 数据缺口显著：主流医疗数据集以CT、MRI为主，超声样本稀缺，缺乏专属训练数据；
2. 语义模糊难对齐：诊断报告表述多样，传统方法难以精准界定正负样本；
3. 缺乏临床结构先验：通用模型无法建模病灶与诊断属性的复杂关联，仅能实现简单关键词匹配。

解决方案：标准化数据与定制化模型双突破

第一步：构建UDT知识框架，打造US-365K数据集

团队建立超声诊断分类体系（UDT），包含两大核心模块：
- 超声层级解剖分类（UHAT）：梳理9大人体系统、52个器官的解剖结构，实现标注标准化；
- 超声诊断属性框架（UDAF）：定义9大诊断维度（如形状、回声性等），形成标准化描述体系。

基于UDT框架，团队从国际权威数据库收集体量数据，经精细化处理与专家审核，最终构建出US-365K数据集，包含36.4万对超声图文样本，覆盖全解剖区域，填补行业空白。

第二步：提出Ultrasound-CLIP框架，精准建模超声语义

团队设计Ultrasound-CLIP框架，在经典双编码器基础上创新融入两大模块：
1. UDAF引导的异质图编码器：将诊断标签转化为异质图，建模病灶与属性的结构化关联；
2. 基于UDAF的语义软标签：通过连续相似度矩阵解决语义模糊问题。

框架采用双目标优化策略，结合对比损失与语义损失，实现图像-文本精准对齐与细粒度语义捕捉。

实验验证：性能领先，泛化能力强

实验表明，Ultrasound-CLIP在多任务分类、图文检索及下游泛化任务中全面优于现有基线模型：
- 多任务分类准确率达59.61%，核心属性识别率超80%；
- 图像-文本检索效率高，I2T@10达37.45%，T2I@50达80.22%；
- 在乳腺、胃肠等下游数据集中表现优异，适配多种临床场景。

资源开源：推动超声AI研究

团队已公开代码与数据集，助力超声跨模态学习领域发展。
论文地址：http://arxiv.org/abs/2604.01749
项目地址：https://github.com/ZJUDataIntelligence/Ultrasound-CLIP
数据集地址：https://huggingface.co/datasets/JJY-0823/US-365K

原文链接

本文链接：https://kx.umi6.com/article/34701.html

转载请注明文章出处

语义感知