1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,OpenAI的中杯o3模型在ARC-AGI推理测试中表现亮眼,得分达57%,成本仅为1.5美元/任务,相比第二名翻倍且成本仅为其1/20,成为当前OpenAI模型中的‘性价比之王’。该测试由ARC Prize官方组织,评估模型的推理能力。结果显示,o3在ARC-AGI-1测试中表现优异,但在升级版ARC-AGI-2中准确率未超3%。值得注意的是,此次的o3虽沿用旧名,但经过微调更适合聊天与产品应用,而非专为测试设计。相比去年12月发布的o3-preview,新版本在成本控制上有显著提升,但准确率有所下降。此外,高级推理设置下的o3(high)因成本高昂且效率较低,未能全面完成测试。ARC官方指出,早期响应的准确率更高,高级推理未必高效,且各版本间每秒token数差异不大。DeepSeek-R1在相同测试中得分仅为15.8%,逊色于o3。

原文链接
本文链接:https://kx.umi6.com/article/17614.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
2026-01-15 15:40:32
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
OpenAI计划于2026年推出首款硬件设备
2026-01-19 23:22:26
OpenAI 首席研究官爆料:奥尔特曼曾不止一次拉响“红色警报”
2025-12-19 16:59:39
OpenAI和Anthropic寻求更多办公空间以在欧洲扩张
2025-12-18 16:58:01
GPT-5.2 提前泄露?线索显示其已“超越 Gemini 3”
2025-12-11 16:00:08
马斯克向OpenAI和微软索赔最高达1340亿美元
2026-01-18 15:28:06
加量不加价:OpenAI 最强编程 AI 模型 API 开放,连续写代码可超 24 小时
2025-12-05 14:33:49
奥尔特曼:OpenAI GPT-5.2 API 上线首日 tokens 超万亿,且增长迅速
2025-12-13 15:55:03
OpenAI 通信一把手 Hannah Wong 明年交棒,曾主导化解“奥尔特曼被罢免”公关危机
2025-12-16 14:46:45
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
OpenAI首款硬件定型为笔!网友:就叫oPen吧
2026-01-04 16:12:59
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
24小时热文
更多
扫一扫体验小程序