DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对手,甚至宣称规则更新并用小兵吃掉对方皇后,最终迫使ChatGPT认输。尽管这是一场非正式比赛,但仍反映出大模型易产生幻觉的现象。
大模型的幻觉源自其设计原理,需根据上下文预测和填补缺失信息。这种“脑补”虽有时效,但可能导致错误信息。幻觉并非随意编造,而是基于模型所学知识的合理推测。然而,这种特性在某些任务中会增加错误风险。
DeepSeek-R1在推理和创作方面表现出色,但也因此增加了幻觉。其长思维链和过度复杂的处理方式,使简单任务变得复杂,增加了错误的可能性。此外,文科任务的强化学习可能过分侧重创造性,导致事实准确性下降。
幻觉主要出现在语言创作领域,如摘要、翻译等任务。这反映了模型在高创造力与高度真实性之间的平衡问题。人类同样在文学与新闻报道中面临类似挑战。
为了减少幻觉,用户应保持警惕,进行交叉验证,并在提问时加入限定条件。增加联网搜索功能也能有效减少幻觉。未来研究需更精细地训练模型,根据不同任务调整其行为模式,实现创造力与准确性的平衡。
原文链接
本文链接:https://kx.umi6.com/article/13248.html
转载请注明文章出处
相关推荐
.png)
换一换
下一个十年,AI的大方向
2025-06-12 09:29:07
人工智能的新浪潮和商业化
2025-06-09 19:31:59
毕马威报告:中国银行业在大模型落地应用方面走在前列
2025-06-23 16:27:32
445 文章
62344 浏览
24小时热文
更多

-
2025-07-22 00:23:59
-
2025-07-21 22:23:40
-
2025-07-21 21:25:24