标题:GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
医疗大模型知识覆盖度首次被精准量化!
在医疗领域,大语言模型(LLM)潜力巨大,但其知识可靠性如何?腾讯优图实验室天衍研究中心通过最新研究给出答案。他们提出的MedKGEval框架首次借助医疗知识图谱(KG)多层级评估,揭示了GPT-4o等主流模型的医学知识覆盖度。
该研究已在WWW 2025会议Web4Good Track被录用为口头报告。
当前主流评估体系存在局限:罕见病症覆盖不足、任务场景单一、难以量化知识储量。为解决这些问题,MedKGEval基于医疗KG的实体、关系、三元组结构,设计三级评估体系:实体层测概念理解,关系层检关联区分能力,子图层验结构化推理水平。
研究团队通过真伪判断与多选题形式,实现任务导向与知识导向的双重评测。MedKGEval包含9项核心任务,涵盖多层级评估。实验显示,GPT-4o以70.65%平均准确率领先,但其在CPubMedKG (small)上的实体、关系、三元组覆盖率分别为65.66%、55.60%、62.31%。
MedKGEval不仅能精准定位LLM的知识薄弱点,还为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。相关论文和代码已公开。
原文链接
本文链接:https://kx.umi6.com/article/17943.html
转载请注明文章出处
相关推荐
.png)
换一换
医疗界迎来重磅大模型,还有10多个场景的智能体!
2025-04-11 10:37:36
医疗大模型已过百款,谁能最早盈利?
2024-10-17 13:05:58
京东健康发布医疗大模型产品体系“AI 京医”,可辅助医生完成病史收集、病历书写等工作
2025-01-11 21:41:51
438 文章
65330 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13