2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
原文链接
本文链接:https://kx.umi6.com/article/25935.html
转载请注明文章出处
相关推荐
换一换
马斯克:若告赢OpenAI 上千亿美元收益全部捐给慈善机构
2026-03-17 17:54:30
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
OpenAI推出首款搭载英伟达竞争对手Cerebras芯片的AI模型
2026-02-13 02:57:22
OpenAI为员工定制特殊版ChatGPT
2026-02-12 19:45:50
OpenAI多名资深研究人员离职
2026-02-03 19:56:24
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
OpenAI宣布以7300亿美元的估值获得1100亿美元新投资
2026-02-27 22:17:29
1220亿美元!OpenAI创下史上最大单笔融资纪录
2026-04-01 09:34:49
OpenAI CEO发文感谢开发者引众怒!程序员痛斥:AI巨头对人类劳动用完即弃
2026-03-19 17:15:35
ChatGPT强行上马广告,因为OpenAI真的很烧钱
2026-01-19 16:01:57
英伟达据悉接近达成协议在OpenAI最新一轮融资中投资200亿美元
2026-02-04 08:28:18
软银集团4-12月净利润增至5倍 创历史同期新高
2026-02-12 16:32:10
823 文章
641415 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38