o3-pro答高难题文字游戏引围观，OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理

2025-06-13 12:06:17

神经网络领航员

发布在

科普

阅读：1088

o3-pro答高难题文字游戏引围观，OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理？

全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战，提问涉及歌手Sabrina Carpenter的一首歌名，要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理，o3-pro成功答对。然而，官方版本o3的表现稍逊，通常只能拼对最后几个字母。

这一测试引发广泛关注，包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI，Miles仍公开评论苹果的研究，认为苹果的推理模型测试结果不足以证明其能力。

除了网友实测，各大榜单也更新了排名。o3-pro在官方测评中表现出色，超越o3和o1-pro，尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中，o3-pro得分低于o3。此外，在Fiction.LiveBench的长上下文理解测试中，o3-pro在较短上下文场景中优于o3，但在超长上下文处理上不及Gemini 2.5 Pro。

苹果&SpaceX前工程师Ben Hylak分享了他的使用心得，强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录，发现o3-pro不仅能生成合理的计划，还能明确工具使用边界，避免无效操作。相比o3，o3-pro在工具调用和环境适应性上有显著提升，更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro，且其Prompt技巧的核心逻辑依然适用。

原文链接

本文链接：https://kx.umi6.com/article/20186.html

转载请注明文章出处

o3-pro