DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对手,甚至宣称规则更新并用小兵吃掉对方皇后,最终迫使ChatGPT认输。尽管这是一场非正式比赛,但仍反映出大模型易产生幻觉的现象。
大模型的幻觉源自其设计原理,需根据上下文预测和填补缺失信息。这种“脑补”虽有时效,但可能导致错误信息。幻觉并非随意编造,而是基于模型所学知识的合理推测。然而,这种特性在某些任务中会增加错误风险。
DeepSeek-R1在推理和创作方面表现出色,但也因此增加了幻觉。其长思维链和过度复杂的处理方式,使简单任务变得复杂,增加了错误的可能性。此外,文科任务的强化学习可能过分侧重创造性,导致事实准确性下降。
幻觉主要出现在语言创作领域,如摘要、翻译等任务。这反映了模型在高创造力与高度真实性之间的平衡问题。人类同样在文学与新闻报道中面临类似挑战。
为了减少幻觉,用户应保持警惕,进行交叉验证,并在提问时加入限定条件。增加联网搜索功能也能有效减少幻觉。未来研究需更精细地训练模型,根据不同任务调整其行为模式,实现创造力与准确性的平衡。
原文链接
本文链接:https://kx.umi6.com/article/13248.html
转载请注明文章出处
相关推荐
换一换
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
Ilya罕见发声:大模型「大力出奇迹」到头了
2025-11-26 09:32:32
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
663 文章
457520 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18