1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理?

全球首位全职提示工程师Riley Goodside对OpenAI“最新最强版”推理模型o3-pro发起挑战,提问涉及歌手Sabrina Carpenter的一首歌名,要求每个单词最后一个字母连起来也能对应这首歌名。经过4分25秒的推理,o3-pro成功答对。然而,官方版本o3的表现稍逊,通常只能拼对最后几个字母。

这一测试引发广泛关注,包括OpenAI前AGI Readiness团队负责人Miles Brundage的注意。尽管已离开OpenAI,Miles仍公开评论苹果的研究,认为苹果的推理模型测试结果不足以证明其能力。

除了网友实测,各大榜单也更新了排名。o3-pro在官方测评中表现出色,超越o3和o1-pro,尤其在编码任务中表现突出。但在LiveBench的智能体编码测试中,o3-pro得分低于o3。此外,在Fiction.LiveBench的长上下文理解测试中,o3-pro在较短上下文场景中优于o3,但在超长上下文处理上不及Gemini 2.5 Pro。

苹果&SpaceX前工程师Ben Hylak分享了他的使用心得,强调模型能力高度依赖背景信息。他通过提供详尽的历史数据和会议记录,发现o3-pro不仅能生成合理的计划,还能明确工具使用边界,避免无效操作。相比o3,o3-pro在工具调用和环境适应性上有显著提升,更适合复杂的协作任务。Ben认为o3-pro的输出质量优于Claude Opus和Gemini 2.5 Pro,且其Prompt技巧的核心逻辑依然适用。

原文链接
本文链接:https://kx.umi6.com/article/20186.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 推出印度专属低价订阅计划 ChatGPT Go,每月 399 卢比
2025-08-19 12:59:12
OpenAI发布开放权重人工智能模型
2025-08-06 08:28:49
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
对决马斯克 Neuralink,曝 OpenAI 奥尔特曼已注资脑机接口公司 Merge Labs
2025-08-13 10:31:15
OpenAI首席科学家访谈被紧急制止!有些名字现在不让说了……
2025-08-06 17:35:32
OpenAI单月营收破10亿美元,CFO坦言仍长期面临算力紧缺
2025-08-21 01:22:02
研究显示 OpenAI 新模型 GPT-5 能耗显著高于前代:中等长度回应平均耗电 18 瓦时
2025-08-10 10:43:30
OpenAI发布GPT-realtime语音对话模型
2025-08-29 08:37:51
OpenAI 重组“模型行为”团队,重点任务是让 ChatGPT“有性格”
2025-09-06 23:39:46
奥尔特曼:希望筹集数万亿美元建设数据中心 计划投资脑机接口公司
2025-08-15 23:21:48
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
奥尔特曼最新发声:OpenAI乐于选择亏损 不关心马斯克
2025-08-09 01:22:32
24小时热文
更多
扫一扫体验小程序