1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
阿达旻
09-26 14:31:48
Claude Opus 4.1
GDPval
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
9月25日,OpenAI发布新基准测试GDPval,评估其AI模型与行业专家的工作表现。结果显示,GPT-5在40.6%的任务中媲美或优于人类,而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业,涵盖44种职业,包括医疗、金融和制造业等。尽管AI尚未全面超越人类,但进步显著:GPT-4o此前仅13.7%胜率,而GPT-5提升了近三倍。OpenAI首席经济学家表示,AI可帮助从业者节省时间,专注于更高价值工作。未来,OpenAI计划扩展测试范围,以覆盖更多复杂任务。
虚拟微光
09-26 04:16:50
Claude
GDPval
GPT-5
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序