o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理?
全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战,提问涉及歌手Sabrina Carpenter的一首歌名,要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理,o3-pro成功答对。然而,官方版本o3的表现稍逊,通常只能拼对最后几个字母。
这一测试引发广泛关注,包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI,Miles仍公开评论苹果的研究,认为苹果的推理模型测试结果不足以证明其能力。
除了网友实测,各大榜单也更新了排名。o3-pro在官方测评中表现出色,超越o3和o1-pro,尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中,o3-pro得分低于o3。此外,在Fiction.LiveBench的长上下文理解测试中,o3-pro在较短上下文场景中优于o3,但在超长上下文处理上不及Gemini 2.5 Pro。
苹果&SpaceX前工程师Ben Hylak分享了他的使用心得,强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录,发现o3-pro不仅能生成合理的计划,还能明确工具使用边界,避免无效操作。相比o3,o3-pro在工具调用和环境适应性上有显著提升,更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro,且其Prompt技巧的核心逻辑依然适用。
原文链接
本文链接:https://kx.umi6.com/article/20186.html
转载请注明文章出处
相关推荐
.png)
换一换
120 亿年收入撬动 1 万亿美元订单:OpenAI 烧钱搞 AI 基建,奥尔特曼称短期内不优先考虑盈利
2025-10-09 09:09:35
满屏 AI 换脸,OpenAI 新应用 Sora 遭自家研究员吐槽
2025-10-02 11:08:52
甲骨文CEO:OpenAI每年支付600亿美元“当然没问题”
2025-10-14 04:06:44
黄仁勋回应AMD送股OpenAI:很高明的交易,OpenAI没钱给我付账
2025-10-11 09:15:33
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
重磅应用密集上线,同时“硬刚”谷歌、亚马逊和Meta,OpenAI急了?今年要“烧”85亿美元
2025-10-22 21:52:10
AMD首席财务官胡锦:与OpenAI合作预计将为公司带来数百亿美元收入
2025-10-07 10:50:10
OpenAI 收购个性化金融投资企业 Roi,强化消费者 AI 业务
2025-10-05 16:22:31
已故名人遭 Sora 2“复活”引争议,OpenAI 称允许生成历史人物
2025-10-09 09:10:22
AI 界“权力的游戏”:OpenAI 示警欧盟担忧苹果、谷歌等巨头阻碍 AI 创新
2025-10-11 09:53:29
OpenAI以创纪录的5,000亿美元估值完成股票交易
2025-10-02 13:13:23
与OpenAI达成巨额算力基建协议 AMD股价盘前暴涨超20%
2025-10-06 20:40:34
如何为5年1万亿美元支出筹钱?OpenAI正探索更多可持续商业模式
2025-10-15 16:40:33
515 文章
226568 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29