谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

2025-09-26 14:31:48

阿达旻

发布在

快讯

阅读：987

2025年9月，OpenAI发布名为GDPval的新基准测试，评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业，年创收达3万亿美元。结果显示，Claude Opus 4.1以47.6%的胜率媲美人类专家，排名第一，超越GPT-5（38.8%）。OpenAI承认不同模型各有优势，如GPT-5在准确性上更优，而Claude在文件格式和美观性方面表现突出。研究还发现，模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集，并提供自动评分服务。此外，微软正与Anthropic合作优化其AI助手，进一步认可Claude的价值。

原文链接

本文链接：https://kx.umi6.com/article/25935.html

转载请注明文章出处

Claude Opus 4.1