1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。

原文链接
本文链接:https://kx.umi6.com/article/25970.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI开始变得俗气了
2025-11-15 16:58:14
OpenAI:预计ChatGPT五年内付费用户将达2.2亿
2025-11-26 15:50:50
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025-11-30 14:13:24
AI投资须政府兜底? OpenAI奥尔特曼紧急“灭火”:2030年营收达数千亿美元
2025-11-07 09:43:08
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
2025-11-25 15:56:23
快手可灵 2.6“音画同出”模型上线,单次生成可同时产出画面、语音、环境音
2025-12-03 23:48:00
AI泡沫担忧愈演愈烈,这“烂摊子”就连英伟达也救不了?一文读懂
2025-11-24 17:09:10
微软与 OpenAI 账本曝光,AI 巨头们的“分钱”游戏
2025-11-15 15:54:19
OpenAI将收购AI模型训练工具初创公司Neptune
2025-12-04 05:01:41
伦敦证券交易所集团与OpenAI达成合作
2025-12-03 22:46:36
OpenAI 推出教育版 ChatGPT,2027 年 6 月前对美国 K - 12 教师免费
2025-11-20 21:42:05
OpenAI:今夏曾考虑过投资火箭公司
2025-12-04 16:34:33
OpenAI的Stargate项目获得Blue Owl的30亿美元
2025-11-11 22:31:29
24小时热文
更多
扫一扫体验小程序