综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月,OpenAI推出全新评估体系GDPval,通过真实工作任务衡量AI模型的经济潜力。覆盖9大行业、44种职业,涉及3万亿美元经济价值,揭示AI在法律、工程、客服等领域的表现。测试显示,Claude Opus 4.1在近半任务中媲美或超越人类专家,GPT-5则在准确性上领先。顶尖模型完成任务的速度和成本仅为人类的1%。OpenAI还开放了部分数据集与评分平台,旨在推动AI普及与劳动力市场转型,助力人类专注创造性工作。
原文链接
9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。
原文链接
2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
原文链接
9月25日,OpenAI发布新基准测试GDPval,评估其AI模型与行业专家的工作表现。结果显示,GPT-5在40.6%的任务中媲美或优于人类,而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业,涵盖44种职业,包括医疗、金融和制造业等。尽管AI尚未全面超越人类,但进步显著:GPT-4o此前仅13.7%胜率,而GPT-5提升了近三倍。OpenAI首席经济学家表示,AI可帮助从业者节省时间,专注于更高价值工作。未来,OpenAI计划扩展测试范围,以覆盖更多复杂任务。
原文链接
加载更多
暂无内容