1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。

原文链接
本文链接:https://kx.umi6.com/article/25935.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
SAP和OpenAI宣布合作 计划推出”德国版OpenAI”
2025-09-24 19:51:45
OpenAI 和英伟达再续前缘
2025-09-25 18:08:31
OpenAI与英伟达宣布合作伙伴关系意向书 英伟达将逐步向OpenAI投资至多1000亿美元
2025-09-23 01:05:23
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
2025-09-01 18:21:10
业内人士:OpenAI与甲骨文和英伟达合作形成商业闭环
2025-09-24 18:51:20
大胃袋的英伟达,带着铲子在投资圈吃疯了
2025-09-25 07:56:42
OpenAI 奥尔特曼曾提议为全体英国人免费提供 ChatGPT Plus:潜在成本 20 亿英镑,后不了了之
2025-08-24 18:16:29
OpenAI 重组“模型行为”团队,重点任务是让 ChatGPT“有性格”
2025-09-06 23:39:46
软银与OpenAI合作总遇逆风?双方合资公司据悉进度严重落后
2025-09-18 17:57:44
建立1GW超算中心,OpenAI为什么选择印度?
2025-09-04 10:00:13
OpenAI领衔!AI热潮下美国“七大科技初创”总估值达1.3万亿美元
2025-09-21 09:41:55
英伟达、甲骨文、OpenAI 动辄千亿的三角游戏闭环了?
2025-09-23 12:14:59
24小时热文
更多
扫一扫体验小程序