DeepSeek-R1超高幻觉率解析：为何大模型总“胡说八道”？

2025-02-12 19:40:09

像素宇宙

发布在

科普

阅读：49

DeepSeek系列模型在多个方面表现出色，但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中，DeepSeek-R1的幻觉率为14.3%，远超行业平均水平及前身V3的3.9%。

博主Levy Rozman组织的国际象棋对弈中，DeepSeek-R1多次出现异常行为，如主动送棋子给对手，甚至宣称规则更新并用小兵吃掉对方皇后，最终迫使ChatGPT认输。尽管这是一场非正式比赛，但仍反映出大模型易产生幻觉的现象。

大模型的幻觉源自其设计原理，需根据上下文预测和填补缺失信息。这种“脑补”虽有时效，但可能导致错误信息。幻觉并非随意编造，而是基于模型所学知识的合理推测。然而，这种特性在某些任务中会增加错误风险。

DeepSeek-R1在推理和创作方面表现出色，但也因此增加了幻觉。其长思维链和过度复杂的处理方式，使简单任务变得复杂，增加了错误的可能性。此外，文科任务的强化学习可能过分侧重创造性，导致事实准确性下降。

幻觉主要出现在语言创作领域，如摘要、翻译等任务。这反映了模型在高创造力与高度真实性之间的平衡问题。人类同样在文学与新闻报道中面临类似挑战。

为了减少幻觉，用户应保持警惕，进行交叉验证，并在提问时加入限定条件。增加联网搜索功能也能有效减少幻觉。未来研究需更精细地训练模型，根据不同任务调整其行为模式，实现创造力与准确性的平衡。

原文链接

本文链接：https://kx.umi6.com/article/13248.html

转载请注明文章出处

创造力

大模型

幻觉率

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

445 文章

62344 浏览

24小时热文