9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。
原文链接
本文链接:https://kx.umi6.com/article/25970.html
转载请注明文章出处
相关推荐
换一换
OpenAI:将自行承担“星际之门”项目能源费用,确保不会推高电价
2026-01-21 13:12:22
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
解码OpenAI的2026
2026-02-04 02:07:37
特朗普政府据悉拟利用AI模型 为全球关键矿产贸易制定参考价格
2026-02-24 22:16:28
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
OpenAI推出首款搭载英伟达竞争对手Cerebras芯片的AI模型
2026-02-13 02:57:22
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
2026-02-08 14:07:29
消息称三星将向OpenAI供应HBM4芯片 用于后者首款自研AI处理器
2026-03-19 21:37:07
OpenAI与美国军方合作引发用户反对:ChatGPT卸载量增加295% 一星评价激增775%
2026-03-03 11:59:16
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
776 文章
601630 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21