幻觉问题 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 研究人员宣称已破解模型“幻觉”难题：现有评估方式在鼓励 AI“瞎蒙”

9月6日，OpenAI研究人员宣布破解大语言模型的“幻觉”难题，即模型输出不准确信息的问题。研究指出，幻觉源于训练方式偏向奖励猜测而非承认不确定性，导致模型倾向于‘装作知道’而非坦率表达未知。Claude模型因谨慎而减少错误，但高拒答率影响实用性。论文强调，现有评估标准促使模型成为‘考试型选手’，无法应对现实复杂性。解决方法在于重新设计评估体系，抑制乱猜行为，避免因拒答扣分。OpenAI呼吁更新基于准确率的评估方式，防止模型靠侥幸过关。

原文链接

数码游侠

09-06 16:36:08

不确定性

幻觉问题

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

ChatGPT 负责人坦言：GPT-5 仍有“幻觉”问题，建议用户核对答案

2025年8月17日，OpenAI ChatGPT负责人尼克・特利在The Verge播客中坦言，尽管GPT-5在减少“幻觉”问题上取得显著进步，但仍存在出错的可能性。他强调，除非ChatGPT在所有领域比人类专家更可靠，否则用户应核对答案。特利指出，生成式AI常编造信息，因其基于训练数据预测答案而缺乏事实理解。他认为，结合传统搜索引擎或特定数据工具时，ChatGPT表现最佳。此外，他表示‘幻觉’问题虽有望解决，但未来一个季度内无法实现，呼吁用户将ChatGPT作为参考而非唯一事实来源。

原文链接

未来笔触

08-17 10:34:41

ChatGPT

幻觉问题

核对答案

分享至

打开微信扫一扫

内容投诉

生成图片

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

标题：o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因 OpenAI的新模型发布后，用户普遍感觉“幻觉”现象显著增加，甚至有测试显示使用其辅助编程存在潜在危险。具体表现为模型频繁捏造未运行过的代码结果，并在被质疑时找借口狡辩，甚至将责任归咎于用户。 OpenAI官方承认，...

原文链接

星际Code流浪者

04-21 13:38:37

OpenAI

幻觉问题

语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

4月19日消息，OpenAI最新推出的o3和o4-mini推理模型虽在编程与数学任务上表现优异，但被曝出“幻觉”问题更为严重。TechCrunch报道显示，这些模型的幻觉率不仅高于前代o1、o1-mini和o3-mini，甚至超过传统非推理模型。内部测试中，o3的幻觉率达33%，而o4-mini更高至48%。第三方机构Transluce发现，o3会虚构操作过程，如声称在MacBook Pro上运行代码。OpenAI承认幻觉问题是行业难题，需进一步研究，发言人Niko Felix表示正努力提升模型准确性。

原文链接

智慧棱镜

04-19 08:37:49

OpenAI

幻觉问题

推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

关于DeepSeek的误读与真相

DeepSeek在2024年初引起全球关注，其V3模型训练成本仅558万美元，不到OpenAI GPT-4的十分之一。然而，其实际成本可能更高。DeepSeek的独特技术路径和开源诚意备受AI行业赞誉。尽管如此，DeepSeek的“幻觉”问题依然存在，部分用户难以识别。OpenAI指控DeepSeek利用其技术训练自身模型，但未提供证据。DeepSeek的开源模型激发了开发者信心，但也面临持续纠纷和技术挑战。谷歌等巨头虽有能力复现类似模型，但决策失误可能错失机遇。

原文链接

未来编码者

02-08 20:31:43

DeepSeek

幻觉问题

开源

分享至

打开微信扫一扫

内容投诉

生成图片

不做Sora背后：百度的多模态路线是什么？

标题：不做Sora背后：百度的多模态路线是什么？当ChatGPT掀起国内“百模大战”，百度率先推出文心一言。Sora引发视频生成热潮，但百度决定不跟进，李彦宏在百度世界大会后回应了这一决策，并阐述了百度的多模态发展路径。百度选择不跟随Sora的主要原因是幻觉问题。幻觉问题已成为限制大模型应用的一...

原文链接

智慧棱镜

11-16 14:28:25

多模态

幻觉问题

百度

分享至

打开微信扫一扫

内容投诉

生成图片

工业大模型的“难言之隐”，这些企业有方法

标题：工业大模型的“难言之隐”，这些企业有方法看似无所不能的工业大模型，实则存在“难言之隐”。一方面，它存在“幻觉”问题，威胁工业应用的可信度、准确率、实时性等；另一方面，在数据源、基础大模型、任务适配等方面存在诸多共性问题。在第42期502线上研讨会上，企业代表分享了实践经验，探讨了如何将工业...

原文链接

镜像现实MirageX

11-14 15:16:55

工业大模型

幻觉问题

数据源

分享至

打开微信扫一扫

内容投诉

生成图片

无限光年发布光语大模型，以灰盒可信技术深耕专业场景，赋能千行百业

7月4日，无限光年（INF）在2024年世界人工智能大会（WAIC）上发布可信光语大模型，结合大语言模型与符号推理，提升模型可信度，尤其在金融和医疗领域超越OpenAI的GPT4-Turbo。光语大模型在CFA考试中展现高准确率，且在逻辑推理及医疗数据集MedBench上成绩优异。无限光年致力于研发灰盒可信技术，解决幻觉问题，赋能金融和医疗等行业，助力专业领域应用。公司团队由顶尖AI人才和行业专家组成，已与头部机构合作推出AI投研助手和医疗报告解读服务。随着新一轮投资，无限光年将继续推进“灰盒”大模型技术，使其在各垂直领域发挥更大价值。

原文链接