9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。
原文链接
本文链接:https://kx.umi6.com/article/25970.html
转载请注明文章出处
相关推荐
换一换
全球算力告急!OpenAI豪掷1450亿疯狂囤算力
2026-04-17 18:16:48
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
郭明錤:OpenAI进军手机 正与联发科、高通合作开发处理器
2026-04-27 12:10:29
AI 模型加速创意呈现 华硕RTX50显卡为创作添彩!
2026-03-25 17:45:59
OpenAI计划推出专攻网络安全的新模型
2026-04-09 20:25:55
OpenAI正式发布GPT-5.5
2026-04-24 09:02:17
欧盟委员会对OpenAI开放新型ChatGPT模型访问权限表示欢迎
2026-05-11 20:28:29
AI初创公司Sereact获1.1亿美元融资 旨在提升机器人适应性
2026-04-28 00:44:44
OpenAI连发两起安全事件!奥特曼住宅遭燃烧弹袭击:20岁男子扬言烧总部
2026-04-11 09:55:12
OpenAI被曝将大规模招聘 到2026年底员工总数或达8000人
2026-03-22 17:00:26
报道称OpenAI未达销售目标 相关股票大跌
2026-04-28 18:33:59
马斯克起诉OpenAI OpenAI上市计划或遇重创
2026-04-28 17:29:04
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
806 文章
691228 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08