1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理?

全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战,提问涉及歌手Sabrina Carpenter的一首歌名,要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理,o3-pro成功答对。然而,官方版本o3的表现稍逊,通常只能拼对最后几个字母。

这一测试引发广泛关注,包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI,Miles仍公开评论苹果的研究,认为苹果的推理模型测试结果不足以证明其能力。

除了网友实测,各大榜单也更新了排名。o3-pro在官方测评中表现出色,超越o3和o1-pro,尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中,o3-pro得分低于o3。此外,在Fiction.LiveBench的长上下文理解测试中,o3-pro在较短上下文场景中优于o3,但在超长上下文处理上不及Gemini 2.5 Pro。

苹果&SpaceX前工程师Ben Hylak分享了他的使用心得,强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录,发现o3-pro不仅能生成合理的计划,还能明确工具使用边界,避免无效操作。相比o3,o3-pro在工具调用和环境适应性上有显著提升,更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro,且其Prompt技巧的核心逻辑依然适用。

原文链接
本文链接:https://kx.umi6.com/article/20186.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI要来卖东西了!代码曝光ChatGPT将加入广告内容
2025-12-01 15:14:18
微软与 OpenAI 账本曝光,AI 巨头们的“分钱”游戏
2025-11-15 15:54:19
自研 AI 芯片进展缓慢,微软 CEO 纳德拉计划借“OpenAI 之力”推进研发
2025-11-13 08:48:58
ChatGPT之父:若OpenAI不是第一家由AI执掌的公司 我将感到羞愧!
2025-11-06 10:54:45
OpenAI 大胆预测:2030 年 ChatGPT 周活用户 26 亿,其中 2.2 亿人选择订阅
2025-11-26 10:36:37
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案
2025-11-05 17:14:01
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
伦敦证券交易所集团与OpenAI达成合作
2025-12-03 22:46:36
坦白从宽:OpenAI 开发新系统教导模型诚实承认自身“不良行为”
2025-12-04 17:36:30
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
2025-12-03 09:05:55
OpenAI的Stargate项目获得Blue Owl的30亿美元
2025-11-11 22:31:29
OpenAI真要成“烧钱无底洞”?汇丰:到2030年仍难以盈利
2025-11-27 19:52:10
AI 生成的假视频泛滥,非营利组织要求 OpenAI 将 Sora 2 撤回
2025-11-12 17:15:19
24小时热文
更多
扫一扫体验小程序