GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

2025-04-30 19:04:18

GhostPilot

发布在

科普

阅读：411

标题：GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

医疗大模型知识覆盖度首次被精准量化！

在医疗领域，大语言模型（LLM）潜力巨大，但其知识可靠性如何？腾讯优图实验室天衍研究中心通过最新研究给出答案。他们提出的MedKGEval框架首次借助医疗知识图谱（KG）多层级评估，揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已在WWW 2025会议Web4Good Track被录用为口头报告。

当前主流评估体系存在局限：罕见病症覆盖不足、任务场景单一、难以量化知识储量。为解决这些问题，MedKGEval基于医疗KG的实体、关系、三元组结构，设计三级评估体系：实体层测概念理解，关系层检关联区分能力，子图层验结构化推理水平。

研究团队通过真伪判断与多选题形式，实现任务导向与知识导向的双重评测。MedKGEval包含9项核心任务，涵盖多层级评估。实验显示，GPT-4o以70.65%平均准确率领先，但其在CPubMedKG (small)上的实体、关系、三元组覆盖率分别为65.66%、55.60%、62.31%。

MedKGEval不仅能精准定位LLM的知识薄弱点，还为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。相关论文和代码已公开。

原文链接

本文链接：https://kx.umi6.com/article/17943.html

转载请注明文章出处

MedKGEval

医学知识覆盖度

医疗大模型

分享至

打开微信扫一扫

内容投诉

生成图片

GhostPilot

499 文章

172632 浏览

24小时热文