1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9月26日,OpenAI发布全新AI评估基准GDPval,用于衡量前沿模型在真实经济价值任务中的表现。该基准覆盖美国九大行业44个职业的1320项任务,由资深专业人士设计,确保真实性与复杂性。与传统评测不同,GDPval要求模型完成多模态交付物,如文件处理、幻灯片生成等。首轮测试显示,Claude Opus 4.1综合性能最佳,GPT-5在特定领域准确性领先。研究表明,前沿模型完成任务速度比专家快100倍,成本仅1%。但OpenAI指出,数据未包含人工监督等现实因素,且目前基准局限在一次性任务,未来将扩展至更复杂场景并开放部分数据集供研究。

原文链接
本文链接:https://kx.umi6.com/article/25970.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
OpenAI正在物色新的风险防范主管
2025-12-29 15:35:54
OpenAI合作项目驱动对AI领军企业多年期业绩预期的上调
2025-12-15 21:00:57
OpenAI据悉正在开发一款对标苹果AirPods的人工智能设备
2026-01-14 15:44:46
OpenAI 想赢的不是下一次发布会,而是下一代入口
2025-12-19 21:10:33
奥尔特曼 400 万年薪急招“末日主管”!上岗即“地狱模式”
2025-12-29 15:34:55
OpenAI 更新手机版 ChatGPT,现支持手动调节 AI“思考深度”
2025-12-30 09:10:29
消息称 OpenAI 正探讨广告方案:回复中给赞助内容更多权重,并确保“克制”
2025-12-24 23:01:58
OpenAI 上线富文本编辑,让你像用 Word 一样处理 ChatGPT 生成内容
2025-12-26 11:34:24
苹果用上了安卓AI,马斯克为啥急得跳脚?
2026-01-15 11:35:02
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
OpenAI将全面杀入企业级市场
2026-01-04 16:14:13
OpenAI 奥尔特曼:高看了谷歌 Gemini 3,明年 1 月结束“红色警报”
2025-12-12 08:38:54
24小时热文
更多
扫一扫体验小程序