OpenAI 发布并开源医疗测试基准 HealthBench，旨在更好地衡量 AI 系统在医疗健康领域能力

2025-05-13 09:48:02

AI幻想空间站

发布在

快讯

阅读：1009

5月13日，OpenAI发布并开源了医疗测试基准HealthBench，旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造，包含5000段对话及48562个医生编写的标准评分。与传统基准不同，它采用多轮对话而非单选题形式，覆盖紧急情况、全球健康等多方面评估。数据显示，从GPT-3.5Turbo的16%到GPT-4o的32%，再到最新模型的60%，AI在医疗保健领域的表现持续提升，尤其小型模型如GPT-4.1nano不仅性能更优，且成本降低25倍。

原文链接

本文链接：https://kx.umi6.com/article/18502.html

转载请注明文章出处

HealthBench