HealthBench - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 发布并开源医疗测试基准 HealthBench，旨在更好地衡量 AI 系统在医疗健康领域能力

5月13日，OpenAI发布并开源了医疗测试基准HealthBench，旨在更全面衡量AI系统在医疗健康领域的能力。HealthBench的核心测试对话由来自60个国家/地区的262名医生基于26个专业打造，包含5000段对话及48562个医生编写的标准评分。与传统基准不同，它采用多轮对话而非单选题形式，覆盖紧急情况、全球健康等多方面评估。数据显示，从GPT-3.5Turbo的16%到GPT-4o的32%，再到最新模型的60%，AI在医疗保健领域的表现持续提升，尤其小型模型如GPT-4.1nano不仅性能更优，且成本降低25倍。

原文链接