1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
OpenAI 3万亿美元测试,AI首战44个行业人类专家!
2025年9月,OpenAI推出全新评估体系GDPval,通过真实工作任务衡量AI模型的经济潜力。覆盖9大行业、44种职业,涉及3万亿美元经济价值,揭示AI在法律、工程、客服等领域的表现。测试显示,Claude Opus 4.1在近半任务中媲美或超越人类专家,GPT-5则在准确性上领先。顶尖模型完成任务的速度和成本仅为人类的1%。OpenAI还开放了部分数据集与评分平台,旨在推动AI普及与劳动力市场转型,助力人类专注创造性工作。
智慧棱镜
09-27 15:43:00
AI模型
GDPval
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%
9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。
小阳哥
09-27 09:38:47
AI模型
GDPval
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
阿达旻
09-26 14:31:48
Claude Opus 4.1
GDPval
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
9月25日,OpenAI发布新基准测试GDPval,评估其AI模型与行业专家的工作表现。结果显示,GPT-5在40.6%的任务中媲美或优于人类,而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业,涵盖44种职业,包括医疗、金融和制造业等。尽管AI尚未全面超越人类,但进步显著:GPT-4o此前仅13.7%胜率,而GPT-5提升了近三倍。OpenAI首席经济学家表示,AI可帮助从业者节省时间,专注于更高价值工作。未来,OpenAI计划扩展测试范围,以覆盖更多复杂任务。
虚拟微光
09-26 04:16:50
Claude
GDPval
GPT-5
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序