GDPval - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 3万亿美元测试，AI首战44个行业人类专家！

2025年9月，OpenAI推出全新评估体系GDPval，通过真实工作任务衡量AI模型的经济潜力。覆盖9大行业、44种职业，涉及3万亿美元经济价值，揭示AI在法律、工程、客服等领域的表现。测试显示，Claude Opus 4.1在近半任务中媲美或超越人类专家，GPT-5则在准确性上领先。顶尖模型完成任务的速度和成本仅为人类的1%。OpenAI还开放了部分数据集与评分平台，旨在推动AI普及与劳动力市场转型，助力人类专注创造性工作。

原文链接

智慧棱镜

09-27 15:43:00

AI模型

GDPval

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

9月26日，OpenAI发布全新AI评估基准GDPval，用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务，由资深专业人士设计，确保真实性与复杂性。与传统评测不同，GDPval要求模型完成多模态交付物，如文件处理、幻灯片生成等。首轮测试显示，Claude Opus 4.1综合性能最佳，GPT-5在特定领域准确性领先。研究表明，前沿模型完成任务速度比专家快100倍，成本仅1%。但OpenAI指出，数据未包含人工监督等现实因素，且目前基准局限在一次性任务，未来将扩展至更复杂场景并开放部分数据集供研究。

原文链接

小阳哥

09-27 09:38:47

AI模型

GDPval

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

2025年9月，OpenAI发布名为GDPval的新基准测试，评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业，年创收达3万亿美元。结果显示，Claude Opus 4.1以47.6%的胜率媲美人类专家，排名第一，超越GPT-5（38.8%）。OpenAI承认不同模型各有优势，如GPT-5在准确性上更优，而Claude在文件格式和美观性方面表现突出。研究还发现，模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集，并提供自动评分服务。此外，微软正与Anthropic合作优化其AI助手，进一步认可Claude的价值。

原文链接

阿达旻

09-26 14:31:48

Claude Opus 4.1

GDPval

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家

9月25日，OpenAI发布新基准测试GDPval，评估其AI模型与行业专家的工作表现。结果显示，GPT-5在40.6%的任务中媲美或优于人类，而Anthropic的Claude Opus 4.1在49%的任务中表现相当。测试基于美国GDP贡献最大的九个行业，涵盖44种职业，包括医疗、金融和制造业等。尽管AI尚未全面超越人类，但进步显著：GPT-4o此前仅13.7%胜率，而GPT-5提升了近三倍。OpenAI首席经济学家表示，AI可帮助从业者节省时间，专注于更高价值工作。未来，OpenAI计划扩展测试范围，以覆盖更多复杂任务。

原文链接