三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

2025-03-28 15:55:43

Nebula

发布在

科普

阅读：832

三大模型巨头比拼“幻觉”能力：ChatGPT优势明显，DeepSeek表现欠佳

近日，智利大学研究员Roberto Araya通过四组对照实验，比较了Gemini 2.0 Flash、ChatGPT o3-mini和DeepSeek R1在应对幻觉问题上的表现。实验结果显示，ChatGPT o3-mini在推理灵活性和准确性上占据绝对优势，能够高效切换策略得出正确结论。相比之下，DeepSeek R1和Gemini 2.0 Flash虽尝试使用策略，但推理过程常出错或混乱。

进一步研究发现，Gemini 2.0 Flash的推理用词最少，但其策略使用效果不佳；ChatGPT o3-mini的推理过程和结论正确率最高；DeepSeek R1推理冗长但结论正确率较高。

研究还通过贝叶斯推理实验，考察模型在无提示和有提示条件下的表现。结果显示，ChatGPT o3-mini在提示条件下表现最优，能灵活使用自然频率推理；DeepSeek R1推理过程冗长且混乱；Gemini 2.0 Flash虽尝试生态策略，但推理过程存在错误。

幻觉问题是大模型的常见挑战，可分为事实性幻觉和忠实性幻觉。其成因包括数据质量问题、训练偏差及推理过程中的创造性“想象”。尽管幻觉难以完全避免，但通过提升数据质量、引入先验知识及优化模型架构，可显著降低其影响。

原文链接

本文链接：https://kx.umi6.com/article/16344.html

转载请注明文章出处

大模型