DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对手,甚至宣称规则更新并用小兵吃掉对方皇后,最终迫使ChatGPT认输。尽管这是一场非正式比赛,但仍反映出大模型易产生幻觉的现象。
大模型的幻觉源自其设计原理,需根据上下文预测和填补缺失信息。这种“脑补”虽有时效,但可能导致错误信息。幻觉并非随意编造,而是基于模型所学知识的合理推测。然而,这种特性在某些任务中会增加错误风险。
DeepSeek-R1在推理和创作方面表现出色,但也因此增加了幻觉。其长思维链和过度复杂的处理方式,使简单任务变得复杂,增加了错误的可能性。此外,文科任务的强化学习可能过分侧重创造性,导致事实准确性下降。
幻觉主要出现在语言创作领域,如摘要、翻译等任务。这反映了模型在高创造力与高度真实性之间的平衡问题。人类同样在文学与新闻报道中面临类似挑战。
为了减少幻觉,用户应保持警惕,进行交叉验证,并在提问时加入限定条件。增加联网搜索功能也能有效减少幻觉。未来研究需更精细地训练模型,根据不同任务调整其行为模式,实现创造力与准确性的平衡。
原文链接
本文链接:https://kx.umi6.com/article/13248.html
转载请注明文章出处
相关推荐
换一换
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
马年4大顶流模型会师阿里云Coding Plan开工!Token量大管饱,自由切换真香
2026-02-26 00:01:12
上海已发布超150款备案大模型
2026-03-28 20:16:44
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了
2026-03-31 21:04:07
国产AI又一轮爆发 MiniMax M3大模型要来了:10-15倍性能改善
2026-05-27 12:26:00
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
智谱AI,排名「第二」
2025-12-21 12:41:26
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
716 文章
633496 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13