5月13日,OpenAI发布并开源了医疗测试基准HealthBench,旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造,包含5000段对话及48562个医生编写的标准评分。与传统基准不同,它采用多轮对话而非单选题形式,覆盖紧急情况、全球健康等多方面评估。数据显示,从GPT-3.5Turbo的16%到GPT-4o的32%,再到最新模型的60%,AI在医疗保健领域的表现持续提升,尤其小型模型如GPT-4.1nano不仅性能更优,且成本降低25倍。
原文链接
本文链接:https://kx.umi6.com/article/18502.html
转载请注明文章出处
相关推荐
换一换
鸿海科技宣布与 OpenAI 达成合作,推动下一代 AI 基础设施硬件的设计及美国制造
2025-11-21 08:05:52
OpenAI 推出教育版 ChatGPT,2027 年 6 月前对美国 K - 12 教师免费
2025-11-20 21:42:05
AI没有航天香?前红杉资本掌舵人称:SpaceX比OpenAI更值钱
2025-11-19 17:29:38
美国甲骨文公司:不会延迟交付为OpenAI建造的数据中心
2025-12-13 20:07:27
OpenAI 奥尔特曼:高看了谷歌 Gemini 3,明年 1 月结束“红色警报”
2025-12-12 08:38:54
Sora APP 30天留存率:1%
2025-12-04 19:38:22
OpenAI:今夏曾考虑过投资火箭公司
2025-12-04 16:34:33
OpenAI、阿里、字节们的AI硬件战事:害怕错过下一代入口
2025-12-06 12:27:46
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14 14:46:00
亚马逊拟百亿投资OpenAI:看似各取所需 实则有人吃暗亏
2025-12-19 22:13:55
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频
2025-12-11 23:15:43
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
2025-12-03 09:05:55
OpenAI首席传播官将离职
2025-12-16 12:39:41
638 文章
390097 浏览
24小时热文
更多
-
2025-12-21 15:48:55 -
2025-12-21 12:41:26 -
2025-12-21 11:44:10