2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
原文链接
本文链接:https://kx.umi6.com/article/25935.html
转载请注明文章出处
相关推荐
换一换
奥特曼承认谷歌威胁到OpenAI!即将推出新模型“Shallotpeat”
2025-11-24 16:04:37
AI投资进入「下半场」
2025-11-13 15:03:01
Nano Banana,OpenAI你学不会
2025-11-24 17:05:42
ChatGPT之父:若OpenAI不是第一家由AI执掌的公司 我将感到羞愧!
2025-11-06 10:54:45
OpenAI:预计ChatGPT五年内付费用户将达2.2亿
2025-11-26 15:50:50
消息称 OpenAI 进军医疗健康领域,探索开发消费级健康工具
2025-11-10 19:27:33
微软自研AI芯片遇阻:计划借力OpenAI技术实现突围
2025-11-13 09:52:43
软银将向OpenAI的数据中心工厂投资至多30亿美元
2025-11-20 22:48:15
自研 AI 芯片进展缓慢,微软 CEO 纳德拉计划借“OpenAI 之力”推进研发
2025-11-13 08:48:58
AI 聊天机器人 ChatGPT 今天突发故障,OpenAI 已紧急修复
2025-12-03 09:11:44
OpenAI CFO 澄清“政府背书”表达:未寻求让美国政府提供担保
2025-11-06 17:05:57
OpenAI 在德国吃官司:ChatGPT 未经许可使用歌词属于侵权行为
2025-11-11 18:22:32
北美多个家庭起诉 OpenAI,七宗诉讼称其怂恿自杀、助长有害妄想
2025-11-07 17:00:09
702 文章
402414 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30