OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家

2025-09-26 04:16:50

虚拟微光

发布在

快讯

阅读：587

9月25日，OpenAI发布新基准测试GDPval，评估其AI模型与行业专家的工作表现。结果显示，GPT-5在40.6%的任务中媲美或优于人类，而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业，涵盖44种职业，包括医疗、金融和制造业等。尽管AI尚未全面超越人类，但进步显著：GPT-4o此前仅13.7%胜率，而GPT-5提升了近三倍。OpenAI首席经济学家表示，AI可帮助从业者节省时间，专注于更高价值工作。未来，OpenAI计划扩展测试范围，以覆盖更多复杂任务。

原文链接

本文链接：https://kx.umi6.com/article/25894.html

转载请注明文章出处

Claude