9月25日,OpenAI发布新基准测试GDPval,评估其AI模型与行业专家的工作表现。结果显示,GPT-5在40.6%的任务中媲美或优于人类,而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业,涵盖44种职业,包括医疗、金融和制造业等。尽管AI尚未全面超越人类,但进步显著:GPT-4o此前仅13.7%胜率,而GPT-5提升了近三倍。OpenAI首席经济学家表示,AI可帮助从业者节省时间,专注于更高价值工作。未来,OpenAI计划扩展测试范围,以覆盖更多复杂任务。
原文链接
本文链接:https://kx.umi6.com/article/25894.html
转载请注明文章出处
相关推荐
换一换
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
2025-09-02 17:34:44
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
Claude 用户注意:聊天记录将被用于 AI 训练,默认同意
2025-08-29 09:37:27
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
2025-08-13 08:31:33
深聊GPT-5发布:过度营销的反噬与AI技术困局
2025-08-12 12:16:52
Anthropic 用 AI“写”智能体,Claude 仅短短一周半时间做出编程助手 Cowork
2026-01-14 14:38:53
Claude估值暴涨300%!全球独角兽字节第三他第四
2025-09-03 12:44:37
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
2025-08-28 14:23:27
GPT-5发威,逼得马斯克 「放大招」?
2025-08-12 11:17:40
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
2025-09-26 14:31:48
首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
2025-08-26 16:47:05
Claude一夜吞掉所有APP,全球打工人变天!AI时代「操作系统」诞生
2026-02-03 14:40:07
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
702 文章
588524 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21