9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。
原文链接
本文链接:https://kx.umi6.com/article/25970.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯辟谣“前 OpenAI 姚顺雨上亿薪资入职腾讯”
2025-09-12 09:08:13
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
2025-09-26 14:31:48
每日为你呈上专属早报:OpenAI 推 ChatGPT Pulse,奥尔特曼最喜欢的 AI 功能
2025-09-26 11:28:46
OpenAI否认因重组遇阻而考虑将总部迁出加州
2025-09-09 18:19:40
OpenAI内部大重组
2025-09-08 19:01:56
全球首富换人不是意外
2025-09-12 09:07:06
OpenAI走向“算力帝国”
2025-09-22 18:02:48
挖苹果“墙角”:消息称 OpenAI 与立讯精密已达成合作,将共同开发全新 AI 硬件
2025-09-19 23:20:43
OpenAI与英伟达宣布合作伙伴关系意向书 英伟达将逐步向OpenAI投资至多1000亿美元
2025-09-23 01:05:23
OpenAI拟将与微软分成比例降至8% 获500亿美元额外收入
2025-09-13 11:25:15
微软、OpenAI同盟生变,亚马逊、Anthropic如何反击?
2025-09-24 08:33:41
全是套路!英伟达千亿美元投OpenAI,奥特曼拿钱买卡还让甲骨文赚差价
2025-09-23 10:11:38
559 文章
222651 浏览
24小时热文
更多

-
2025-09-27 09:38:47
-
2025-09-27 08:38:26
-
2025-09-27 07:39:00