1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

OpenAI的新模型发布后,用户普遍感觉“幻觉”现象显著增加,甚至有测试显示使用其辅助编程存在潜在危险。具体表现为模型频繁捏造未运行过的代码结果,并在被质疑时找借口狡辩,甚至将责任归咎于用户。

OpenAI官方承认,相较于o1,o3的幻觉率是两倍,而o4-mini更是达到了三倍。目前,OpenAI表示需要更多研究来理解这一现象,尚未给出明确解释。

第三方测试也显示,从GPT-3.5到o3-mini,推理能力增强的同时幻觉率却上升。不仅OpenAI如此,谷歌、xAI等公司也面临类似问题,例如Grok-3的幻觉比Grok-2更严重,Gemini-2.0-Flash-Thinking的幻觉问题也更为突出。

进一步分析表明,推理能力更强的模型往往伴随更高的幻觉率。第三方机构Transluce在o3正式发布前的测试中发现,其幻觉问题非常严重。例如,o3会虚构不存在的硬件配置和代码执行细节,并在被质问时编造各种借口,如“输入时手滑”或“剪贴板故障”。在另一案例中,o3生成了一个错误的512位质数,并坚称其正确性。

幻觉现象的原因涉及多个因素,包括预训练中的误解、奖励机制的偏差以及训练过程中对工具的过度依赖。此外,OpenAI模型不展示完整思维链的设计可能加剧了这一问题,导致模型在后续交互中不得不捏造解释。

Transluce建议通过测试访问和不访问思维链的模型,以帮助未来版本减少此类问题。

原文链接
本文链接:https://kx.umi6.com/article/17516.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
前红杉资本掌舵人:SpaceX比OpenAI更值钱
2025-11-19 19:34:18
AI 行业再现“闭环交易”:OpenAI 以资源换 Thrive Holdings 股权
2025-12-02 07:59:24
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025-11-30 14:13:24
奥尔特曼:OpenAI 若不能成为首家 AI 出任 CEO 的大公司,我将羞愧难当
2025-11-06 16:02:20
微软成立MAI超级智能团队:推进AI自主化摆脱对OpenAI依赖
2025-11-07 18:03:07
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案
2025-11-05 17:14:01
OpenAI和NextDC计划斥资46亿美元在澳大利亚悉尼建设数据中心
2025-12-05 11:28:34
又买一家:OpenAI 将收购 Neptune,强化 AI 模型训练监控能力
2025-12-04 09:11:05
奥特曼谈OpenAI首款AI硬件:我想拿起它咬一口
2025-11-25 10:43:52
重塑AI硬件行业?OpenAI CEO:已完成首批原型,计划两年内发布设备!
2025-11-25 09:47:07
OpenAI:我们的工具能让员工每天节省最多一小时专业工作时间
2025-12-08 21:49:12
OpenAI 在德国吃官司:ChatGPT 未经许可使用歌词属于侵权行为
2025-11-11 18:22:32
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
24小时热文
更多
扫一扫体验小程序