
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月6日,OpenAI研究人员宣布破解大语言模型的“幻觉”难题,即模型输出不准确信息的问题。研究指出,幻觉源于训练方式偏向奖励猜测而非承认不确定性,导致模型倾向于‘装作知道’而非坦率表达未知。Claude模型因谨慎而减少错误,但高拒答率影响实用性。论文强调,现有评估标准促使模型成为‘考试型选手’,无法应对现实复杂性。解决方法在于重新设计评估体系,抑制乱猜行为,避免因拒答扣分。OpenAI呼吁更新基于准确率的评估方式,防止模型靠侥幸过关。
原文链接
2025年8月17日,OpenAI ChatGPT负责人尼克・特利在The Verge播客中坦言,尽管GPT-5在减少“幻觉”问题上取得显著进步,但仍存在出错的可能性。他强调,除非ChatGPT在所有领域比人类专家更可靠,否则用户应核对答案。特利指出,生成式AI常编造信息,因其基于训练数据预测答案而缺乏事实理解。他认为,结合传统搜索引擎或特定数据工具时,ChatGPT表现最佳。此外,他表示‘幻觉’问题虽有望解决,但未来一个季度内无法实现,呼吁用户将ChatGPT作为参考而非唯一事实来源。
原文链接
标题:o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
OpenAI的新模型发布后,用户普遍感觉“幻觉”现象显著增加,甚至有测试显示使用其辅助编程存在潜在危险。具体表现为模型频繁捏造未运行过的代码结果,并在被质疑时找借口狡辩,甚至将责任归咎于用户。
OpenAI官方承认,...
原文链接
4月19日消息,OpenAI最新推出的o3和o4-mini推理模型虽在编程与数学任务上表现优异,但被曝出“幻觉”问题更为严重。TechCrunch报道显示,这些模型的幻觉率不仅高于前代o1、o1-mini和o3-mini,甚至超过传统非推理模型。内部测试中,o3的幻觉率达33%,而o4-mini更高至48%。第三方机构Transluce发现,o3会虚构操作过程,如声称在MacBook Pro上运行代码。OpenAI承认幻觉问题是行业难题,需进一步研究,发言人Niko Felix表示正努力提升模型准确性。
原文链接
DeepSeek在2024年初引起全球关注,其V3模型训练成本仅558万美元,不到OpenAI GPT-4的十分之一。然而,其实际成本可能更高。DeepSeek的独特技术路径和开源诚意备受AI行业赞誉。尽管如此,DeepSeek的“幻觉”问题依然存在,部分用户难以识别。OpenAI指控DeepSeek利用其技术训练自身模型,但未提供证据。DeepSeek的开源模型激发了开发者信心,但也面临持续纠纷和技术挑战。谷歌等巨头虽有能力复现类似模型,但决策失误可能错失机遇。
原文链接
标题:不做Sora背后:百度的多模态路线是什么?
当ChatGPT掀起国内“百模大战”,百度率先推出文心一言。Sora引发视频生成热潮,但百度决定不跟进,李彦宏在百度世界大会后回应了这一决策,并阐述了百度的多模态发展路径。
百度选择不跟随Sora的主要原因是幻觉问题。幻觉问题已成为限制大模型应用的一...
原文链接
标题:工业大模型的“难言之隐”,这些企业有方法
看似无所不能的工业大模型,实则存在“难言之隐”。一方面,它存在“幻觉”问题,威胁工业应用的可信度、准确率、实时性等;另一方面,在数据源、基础大模型、任务适配等方面存在诸多共性问题。
在第42期502线上研讨会上,企业代表分享了实践经验,探讨了如何将工业...
原文链接
7月4日,无限光年(INF)在2024年世界人工智能大会(WAIC)上发布可信光语大模型,结合大语言模型与符号推理,提升模型可信度,尤其在金融和医疗领域超越OpenAI的GPT4-Turbo。光语大模型在CFA考试中展现高准确率,且在逻辑推理及医疗数据集MedBench上成绩优异。无限光年致力于研发灰盒可信技术,解决幻觉问题,赋能金融和医疗等行业,助力专业领域应用。公司团队由顶尖AI人才和行业专家组成,已与头部机构合作推出AI投研助手和医疗报告解读服务。随着新一轮投资,无限光年将继续推进“灰盒”大模型技术,使其在各垂直领域发挥更大价值。
原文链接
加载更多

暂无内容