5月13日,OpenAI发布并开源了医疗测试基准HealthBench,旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造,包含5000段对话及48562个医生编写的标准评分。与传统基准不同,它采用多轮对话而非单选题形式,覆盖紧急情况、全球健康等多方面评估。数据显示,从GPT-3.5Turbo的16%到GPT-4o的32%,再到最新模型的60%,AI在医疗保健领域的表现持续提升,尤其小型模型如GPT-4.1nano不仅性能更优,且成本降低25倍。
原文链接
本文链接:https://kx.umi6.com/article/18502.html
转载请注明文章出处
相关推荐
换一换
OpenAI 前瞻 ChatGPT 终极形态:迈步“App Store”时代,搭积木式创建 AI 智能体
2025-10-07 07:46:59
OpenAI和博通宣布战略合作 博通盘前涨12%
2025-10-13 22:04:43
OpenAI 的网络浏览器:ChatGPT Atlas 正式发布,能让 AI“替你上网”
2025-10-22 02:34:53
消息称 OpenAI 正开发新的生成式音乐工具,可为视频添加配乐
2025-10-26 08:00:01
重磅应用密集上线,同时“硬刚”谷歌、亚马逊和Meta,OpenAI急了?今年要“烧”85亿美元
2025-10-22 21:52:10
曝 OpenAI 正向多家企业推介使用 ChatGPT 登录:可将 API 成本转嫁用户,无形扩大影响力
2025-10-18 22:38:28
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
马上,OpenAI就会成为最大的无人公司
2025-10-13 07:54:55
消息称软银系深化与 OpenAI 合作,Arm 将为后者开发 CPU
2025-10-14 14:16:57
巨额采购订单不断,OpenAI“停不下来”
2025-10-14 10:15:04
AMD与OpenAI达成重磅合作:股价暴涨24% 市值增加4500亿
2025-10-07 13:54:13
OpenAI 自研 AI 浏览器?奥尔特曼官宣凌晨 1 点直播,透露将有令人兴奋的新产品
2025-10-22 00:33:28
OpenAI宣布推出基于ChatGPT技术构建的新型AI网页浏览器ChatGPT Atlas
2025-10-22 03:35:06
571 文章
277565 浏览
24小时热文
更多
-
2025-10-26 16:18:29 -
2025-10-26 16:17:25 -
2025-10-26 16:15:18