5月13日,OpenAI发布并开源了医疗测试基准HealthBench,旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造,包含5000段对话及48562个医生编写的标准评分。与传统基准不同,它采用多轮对话而非单选题形式,覆盖紧急情况、全球健康等多方面评估。数据显示,从GPT-3.5Turbo的16%到GPT-4o的32%,再到最新模型的60%,AI在医疗保健领域的表现持续提升,尤其小型模型如GPT-4.1nano不仅性能更优,且成本降低25倍。
原文链接
本文链接:https://kx.umi6.com/article/18502.html
转载请注明文章出处
相关推荐
换一换
Ilya曝光70页OpenAI绝密文件
2026-04-07 10:47:37
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
OpenAI与Ginkgo合作使蛋白质生产成本降低40%
2026-02-06 03:31:10
OpenAI在ChatGPT中加载广告,这是一个1.4万亿美元的市场
2026-01-21 13:10:00
OpenAI 首席财务官:过去三年,公司收入、算力均累计增长约十倍
2026-01-19 16:03:05
知道你一切隐私的AI 现在着急卖广告赚钱了
2026-02-13 23:46:20
OpenAI:GPT-5.2/Codex模型的速度现已提升40%
2026-02-04 13:45:40
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
OpenAI准备在本周推出更新版聊天模型
2026-02-09 21:33:55
OpenAI与美国军方合作引发用户反对:ChatGPT卸载量增加295% 一星评价激增775%
2026-03-03 11:59:16
OpenAI缩减ChatGPT内置购物功能规划
2026-03-05 10:06:59
马斯克:若告赢OpenAI 上千亿美元收益全部捐给慈善机构
2026-03-17 17:54:30
725 文章
558968 浏览
24小时热文
更多
-
2026-04-24 16:22:09 -
2026-04-24 16:21:03 -
2026-04-24 16:19:57