2025年12月,南洋理工大学发布首个全面评测大型语言模型(LLM)处理结构化电子病历(EHR)能力的基准EHRStruct。该基准由计算机科学家与医学专家联合构建,涵盖11项核心任务、2,200个标准化样本,按临床场景和认知层级分类,为医疗AI提供严谨评测框架。研究团队对20个主流LLM及11种增强方法进行评测,并提出代码增强框架EHRMaster,显著提升性能,尤其在数据驱动任务中表现优异。研究成果已被AAAI 2026录取为Oral论文,并同步推出EHRStruct 2026挑战赛,供全球研究者对比模型能力。Leaderboard已在Codabench上线,推动LLM在医疗领域的应用探索。
原文链接
本文链接:https://kx.umi6.com/article/30265.html
转载请注明文章出处
相关推荐
换一换
15亿流量,为何没带来AI游戏的『王者荣耀 』
2024-10-30 14:08:48
我国首个心血管专科医疗大模型“观心”发布:自动生成电子病历,顶尖医生经验辅助诊断
2025-02-27 16:30:34
Claude 4登陆Amazon Bedrock
2025-05-27 18:22:21
LeCun 与 OpenAI 阿尔特曼达成共识:承认 AGI 5 到 10 年降临,但 LLM 注定死路一条
2024-11-29 14:59:53
Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具
2025-05-31 23:12:07
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
2024-11-16 19:35:47
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 18:37:26
GPT-4欺骗人类高达99.16%惊人率,PNAS重磅研究曝出,LLM推理越强欺骗值越高
2024-06-11 08:39:03
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理
2025-06-03 12:57:05
Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
2024-11-18 10:17:27
“13.11和13.8哪个大”,为什么让大模型集体失智?
2024-07-17 15:25:53
为啥“3个agent”没水吃?科学家发现了14个失败原因
2025-03-27 19:02:22
707 文章
628622 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41