2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
原文链接
本文链接:https://kx.umi6.com/article/25935.html
转载请注明文章出处
相关推荐
换一换
OpenAI的「梦醒时分」
2025-12-09 15:41:20
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
OpenAI首席传播官将离职
2025-12-16 12:39:41
算力越高收入越多!OpenAI率先验证AI商业Scaling Law
2026-01-20 11:02:06
消息称 OpenAI 要求外包人员上传真实工作成果,律师警告称风险极高
2026-01-12 09:24:27
有望挑战传统机翻,OpenAI 低调上线“ChatGPT 翻译”页面
2026-01-15 08:20:52
迪士尼与OpenAI达成战略合作与内容授权协议
2025-12-13 13:53:11
OpenAI据悉正在开发一款对标苹果AirPods的人工智能设备
2026-01-14 15:44:46
黑客能让 AI 发辞职信?OpenAI 承认 Atlas 浏览器提示词注入攻击难以根治
2025-12-23 07:24:44
消息称 OpenAI 大力研发音频 AI 模型,加紧备战首款“无屏幕”硬件设备
2026-01-02 00:44:25
OpenAI、SpaceX和Anthropic,三大「超级IPO」或齐聚今年
2026-01-05 18:19:20
Sora APP 30天留存率:1%
2025-12-04 19:38:22
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14 14:46:00
747 文章
481054 浏览
24小时热文
更多
-
2026-01-23 09:43:53 -
2026-01-23 08:40:41 -
2026-01-23 06:34:26