o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理?
全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战,提问涉及歌手Sabrina Carpenter的一首歌名,要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理,o3-pro成功答对。然而,官方版本o3的表现稍逊,通常只能拼对最后几个字母。
这一测试引发广泛关注,包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI,Miles仍公开评论苹果的研究,认为苹果的推理模型测试结果不足以证明其能力。
除了网友实测,各大榜单也更新了排名。o3-pro在官方测评中表现出色,超越o3和o1-pro,尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中,o3-pro得分低于o3。此外,在Fiction.LiveBench的长上下文理解测试中,o3-pro在较短上下文场景中优于o3,但在超长上下文处理上不及Gemini 2.5 Pro。
苹果&SpaceX前工程师Ben Hylak分享了他的使用心得,强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录,发现o3-pro不仅能生成合理的计划,还能明确工具使用边界,避免无效操作。相比o3,o3-pro在工具调用和环境适应性上有显著提升,更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro,且其Prompt技巧的核心逻辑依然适用。
原文链接
本文链接:https://kx.umi6.com/article/20186.html
转载请注明文章出处
相关推荐
换一换
OpenAI大神教你如何榨干Codex
2026-05-23 18:54:39
OpenAI宣布以7300亿美元的估值获得1100亿美元新投资
2026-02-27 22:17:29
OpenAI要求谷歌将ChatGPT列为默认搜索引擎之一
2026-03-23 20:45:43
OpenAI被曝将大规模招聘 到2026年底员工总数或达8000人
2026-03-22 17:00:26
OpenAI关停Sora!25个月从封神到退场
2026-03-25 09:11:16
马斯克死磕奥特曼:赔款我不要,但他必须离开OpenAI董事会
2026-04-09 12:02:49
软银据悉寻求最高400亿美元贷款 用于投资OpenAI
2026-03-06 13:02:04
OpenAI关停Sora真实原因曝光:烧钱无底洞 用户留不住
2026-03-31 18:00:04
OpenAI与美国军方合作引发用户反对:ChatGPT卸载量增加295% 一星评价激增775%
2026-03-03 11:59:16
OpenAI要求加利福尼亚州和特拉华州调查马斯克
2026-04-07 20:17:29
OpenAI首席营收官:企业业务收入占比超过40%
2026-04-09 07:54:07
马斯克破大防了:私信求和遭拒,怒喷奥特曼Brockman「全美最恶人」
2026-05-06 12:44:44
OpenAI首席财务官:公司或将筹集更多资金 未来可能考虑通过公开市场融资
2026-05-15 16:58:46
684 文章
578080 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08