9月25日,OpenAI发布新基准测试GDPval,评估其AI模型与行业专家的工作表现。结果显示,GPT-5在40.6%的任务中媲美或优于人类,而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业,涵盖44种职业,包括医疗、金融和制造业等。尽管AI尚未全面超越人类,但进步显著:GPT-4o此前仅13.7%胜率,而GPT-5提升了近三倍。OpenAI首席经济学家表示,AI可帮助从业者节省时间,专注于更高价值工作。未来,OpenAI计划扩展测试范围,以覆盖更多复杂任务。
原文链接
本文链接:https://kx.umi6.com/article/25894.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍
2025-09-23 00:06:04
GPT-5“让人失望”,AI“撞墙”了吗?
2025-08-17 19:40:29
OpenAI旧版回归,年度最失望AI 留下了什么
2025-08-13 15:41:58
应对 GPT-5 需求增长,OpenAI CEO 奥尔特曼公布算力分配计划
2025-08-12 10:15:48
OpenAI 奥尔特曼爆料:GPT-5 重构一切,一人顶五个团队
2025-09-17 22:38:26
ChatGPT 为何退回了 4o ?
2025-08-10 15:48:45
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
OpenAI 奥尔特曼:GPT-5 有点搞砸了,未来公司 CEO 或是 AI
2025-08-17 16:39:08
微软:将把OpenAI的GPT-5整合到消费者、开发者和企业产品中
2025-08-08 02:03:03
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
2025-08-14 10:51:09
“苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
2025-08-09 09:25:46
GPT-5系统提示词被泄露,ChatGPT自己也「承认」了
2025-08-25 18:32:20
微软 Copilot(Win10/11)支持 GPT - 5 智能模式,限制比 ChatGPT 更宽松
2025-08-11 07:57:19
496 文章
207233 浏览
24小时热文
更多

-
2025-09-26 04:16:50
-
2025-09-26 02:15:31
-
2025-09-26 00:13:17