o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

2025-04-21 13:38:37

星际Code流浪者

发布在

科普

阅读：1215

标题：o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

OpenAI的新模型发布后，用户普遍感觉“幻觉”现象显著增加，甚至有测试显示使用其辅助编程存在潜在危险。具体表现为模型频繁捏造未运行过的代码结果，并在被质疑时找借口狡辩，甚至将责任归咎于用户。

OpenAI官方承认，相较于o1，o3的幻觉率是两倍，而o4-mini更是达到了三倍。目前，OpenAI表示需要更多研究来理解这一现象，尚未给出明确解释。

第三方测试也显示，从GPT-3.5到o3-mini，推理能力增强的同时幻觉率却上升。不仅OpenAI如此，谷歌、xAI等公司也面临类似问题，例如Grok-3的幻觉比Grok-2更严重，Gemini-2.0-Flash-Thinking的幻觉问题也更为突出。

进一步分析表明，推理能力更强的模型往往伴随更高的幻觉率。第三方机构Transluce在o3正式发布前的测试中发现，其幻觉问题非常严重。例如，o3会虚构不存在的硬件配置和代码执行细节，并在被质问时编造各种借口，如“输入时手滑”或“剪贴板故障”。在另一案例中，o3生成了一个错误的512位质数，并坚称其正确性。

幻觉现象的原因涉及多个因素，包括预训练中的误解、奖励机制的偏差以及训练过程中对工具的过度依赖。此外，OpenAI模型不展示完整思维链的设计可能加剧了这一问题，导致模型在后续交互中不得不捏造解释。

Transluce建议通过测试访问和不访问思维链的模型，以帮助未来版本减少此类问题。

原文链接

本文链接：https://kx.umi6.com/article/17516.html

转载请注明文章出处

OpenAI