o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理?
全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战,提问涉及歌手Sabrina Carpenter的一首歌名,要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理,o3-pro成功答对。然而,官方版本o3的表现稍逊,通常只能拼对最后几个字母。
这一测试引发广泛关注,包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI,Miles仍公开评论苹果的研究,认为苹果的推理模型测试结果不足以证明其能力。
除了网友实测,各大榜单也更新了排名。o3-pro在官方测评中表现出色,超越o3和o1-pro,尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中,o3-pro得分低于o3。此外,在Fiction.LiveBench的长上下文理解测试中,o3-pro在较短上下文场景中优于o3,但在超长上下文处理上不及Gemini 2.5 Pro。
苹果&SpaceX前工程师Ben Hylak分享了他的使用心得,强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录,发现o3-pro不仅能生成合理的计划,还能明确工具使用边界,避免无效操作。相比o3,o3-pro在工具调用和环境适应性上有显著提升,更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro,且其Prompt技巧的核心逻辑依然适用。
原文链接
本文链接:https://kx.umi6.com/article/20186.html
转载请注明文章出处
相关推荐
换一换
OpenAI 首席财务官:过去三年,公司收入、算力均累计增长约十倍
2026-01-19 16:03:05
OpenAI或为亚马逊AI产品开发定制化模型
2026-02-04 22:10:24
OpenAI为员工定制特殊版ChatGPT
2026-02-12 19:45:50
没博士没论文,这些人杀进AI大厂
2026-01-27 03:49:22
OpenAI前高管坦言公司“掉链子” 让竞争对手谷歌得以翻身
2026-01-24 00:23:19
英伟达、微软、亚马逊正就向OpenAI投资高达600亿美元事宜展开谈判
2026-01-29 11:26:08
OpenAI最新融资1100亿美元!英伟达亚马逊软银都抢到船票了
2026-02-28 12:08:27
OpenAI 向软银集团旗下数字基础设施公司 SB Energy 投资 5 亿美元
2026-01-10 12:10:02
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
解码OpenAI的2026
2026-02-04 02:07:37
OpenAI 首款硬件设备被曝为 AI 耳机,首年有望出货 4000~5000 万台
2026-01-21 12:05:04
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
2026-02-08 14:07:29
消息称 OpenAI 要求外包人员上传真实工作成果,律师警告称风险极高
2026-01-12 09:24:27
640 文章
429046 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43