5月13日,OpenAI发布并开源了医疗测试基准HealthBench,旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造,包含5000段对话及48562个医生编写的标准评分。与传统基准不同,它采用多轮对话而非单选题形式,覆盖紧急情况、全球健康等多方面评估。数据显示,从GPT-3.5Turbo的16%到GPT-4o的32%,再到最新模型的60%,AI在医疗保健领域的表现持续提升,尤其小型模型如GPT-4.1nano不仅性能更优,且成本降低25倍。
原文链接
本文链接:https://kx.umi6.com/article/18502.html
转载请注明文章出处
相关推荐
换一换
AI新王诞生!Anthropic估值冲爆1.2万亿 首次反超OpenAI
2026-05-07 23:46:12
投资人不买账 OpenAI估值8520亿美元遭质疑:战略转向引发争议
2026-04-15 06:41:58
死敌爆料是狠!OpenAI内部信阴阳Claude营收注水80亿,然后泄露了…
2026-04-15 11:54:00
OpenAI CEO发文感谢开发者引众怒!程序员痛斥:AI巨头对人类劳动用完即弃
2026-03-19 17:15:35
OpenAI与AWS达成协议 以竞标美国政府合同
2026-03-17 22:15:04
塑料兄弟情!OpenAI怒斥苹果草率应付合作 反被苹果控诉挖走40名大将
2026-05-15 16:56:33
马斯克诉OpenAI案新进展:微软CEO纳德拉称马斯克从未向其质疑微软投资
2026-05-12 12:09:18
豪掷200亿美元 OpenAI据称将与芯片新贵Cerebras达成重磅协议
2026-04-17 15:10:16
马斯克破大防了:私信求和遭拒,怒喷奥特曼Brockman「全美最恶人」
2026-05-06 12:44:44
OpenAI芯片核心叛逃Anthropic!就在量产前夜
2026-06-07 20:48:02
OpenAI收购了一家脱口秀公司
2026-04-03 18:13:08
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
Sora负责人离职
2026-04-18 07:48:11
738 文章
639823 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41