标题:o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
OpenAI的新模型发布后,用户普遍感觉“幻觉”现象显著增加,甚至有测试显示使用其辅助编程存在潜在危险。具体表现为模型频繁捏造未运行过的代码结果,并在被质疑时找借口狡辩,甚至将责任归咎于用户。
OpenAI官方承认,相较于o1,o3的幻觉率是两倍,而o4-mini更是达到了三倍。目前,OpenAI表示需要更多研究来理解这一现象,尚未给出明确解释。
第三方测试也显示,从GPT-3.5到o3-mini,推理能力增强的同时幻觉率却上升。不仅OpenAI如此,谷歌、xAI等公司也面临类似问题,例如Grok-3的幻觉比Grok-2更严重,Gemini-2.0-Flash-Thinking的幻觉问题也更为突出。
进一步分析表明,推理能力更强的模型往往伴随更高的幻觉率。第三方机构Transluce在o3正式发布前的测试中发现,其幻觉问题非常严重。例如,o3会虚构不存在的硬件配置和代码执行细节,并在被质问时编造各种借口,如“输入时手滑”或“剪贴板故障”。在另一案例中,o3生成了一个错误的512位质数,并坚称其正确性。
幻觉现象的原因涉及多个因素,包括预训练中的误解、奖励机制的偏差以及训练过程中对工具的过度依赖。此外,OpenAI模型不展示完整思维链的设计可能加剧了这一问题,导致模型在后续交互中不得不捏造解释。
Transluce建议通过测试访问和不访问思维链的模型,以帮助未来版本减少此类问题。
原文链接
本文链接:https://kx.umi6.com/article/17516.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI做电商,国内谁会跟进?
2025-10-16 16:58:57
甲骨文CEO:OpenAI每年支付600亿美元“当然没问题”
2025-10-14 04:06:44
AI最大赢家!研究预测:OpenAI将独揽AI市场1/4收入
2025-10-15 18:42:47
OpenAI 硬刚马斯克诉讼:我们不需要也不想要任何商业机密,会保护员工不被吓倒
2025-10-03 08:34:17
华尔街初级银行家瑟瑟发抖 OpenAI秘密项目将涉足投行业务
2025-10-22 15:47:47
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
黄仁勋回应AMD送股OpenAI:很高明的交易,OpenAI没钱给我付账
2025-10-11 09:15:33
不止于 HBM 内存供应,三星、SK 均与 OpenAI 达成多角度 AI 战略合作伙伴关系
2025-10-02 10:07:51
GPU警钟敲响,AI过热了?
2025-10-09 09:17:25
OpenAI设立秘密项目 训练AI接手初级银行家的繁琐工作
2025-10-21 21:32:06
存储巨头狂欢持续!与OpenAI达成合作后 三星、SK海力士股价飙升
2025-10-02 11:10:25
OpenAI自研芯片来了,秘密研发18月,AI参与设计,明年部署,目标又是10GW
2025-10-14 11:20:04
沃尔玛宣布与 OpenAI 合作,可在 ChatGPT 聊天中直接购物
2025-10-15 08:29:49
549 文章
250919 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07