标题:GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
医疗大模型知识覆盖度首次被精准量化!
在医疗领域,大语言模型(LLM)潜力巨大,但其知识可靠性如何?腾讯优图实验室天衍研究中心通过最新研究给出答案。他们提出的MedKGEval框架首次借助医疗知识图谱(KG)多层级评估,揭示了GPT-4o等主流模型的医学知识覆盖度。
该研究已在WWW 2025会议Web4Good Track被录用为口头报告。
当前主流评估体系存在局限:罕见病症覆盖不足、任务场景单一、难以量化知识储量。为解决这些问题,MedKGEval基于医疗KG的实体、关系、三元组结构,设计三级评估体系:实体层测概念理解,关系层检关联区分能力,子图层验结构化推理水平。
研究团队通过真伪判断与多选题形式,实现任务导向与知识导向的双重评测。MedKGEval包含9项核心任务,涵盖多层级评估。实验显示,GPT-4o以70.65%平均准确率领先,但其在CPubMedKG (small)上的实体、关系、三元组覆盖率分别为65.66%、55.60%、62.31%。
MedKGEval不仅能精准定位LLM的知识薄弱点,还为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。相关论文和代码已公开。
原文链接
本文链接:https://kx.umi6.com/article/17943.html
转载请注明文章出处
相关推荐
.png)
换一换
医疗界迎来重磅大模型,还有10多个场景的智能体!
2025-04-11 10:37:36
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板
2025-08-11 23:09:21
医疗大模型已过百款,谁能最早盈利?
2024-10-17 13:05:58
京东健康发布医疗大模型产品体系“AI 京医”,可辅助医生完成病史收集、病历书写等工作
2025-01-11 21:41:51
爸妈的 AI 健康小棉袄来了!像医生能追问、读报告、还能识药看皮肤
2025-06-26 15:25:29
华为组建医疗卫生军团!推动医疗大模型应用
2025-03-10 12:35:10
支付宝发布多模态医疗大模型,联合20家机构发起医疗AI共建计划
2024-07-06 09:14:08
医疗大模型的生意经:一体机卖爆,医院实际使用场景却少
2025-06-03 09:49:56
讯飞星火医疗大模型宣布登顶 MedBench 榜单,多项核心能力位居第一
2025-06-17 17:29:18
医疗大模型,集体下沉
2025-04-21 15:43:38
大模型上岗三甲医院,给每个医生都配个“病历质控助手”
2024-06-26 15:31:28
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
2025-04-30 19:04:18
国内排名前100的顶级医院,都在自研什么大模型?
2025-05-16 13:55:11
499 文章
172632 浏览
24小时热文
更多

-
2025-09-06 10:33:40
-
2025-09-06 10:33:35
-
2025-09-06 10:32:35