DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对手,甚至宣称规则更新并用小兵吃掉对方皇后,最终迫使ChatGPT认输。尽管这是一场非正式比赛,但仍反映出大模型易产生幻觉的现象。
大模型的幻觉源自其设计原理,需根据上下文预测和填补缺失信息。这种“脑补”虽有时效,但可能导致错误信息。幻觉并非随意编造,而是基于模型所学知识的合理推测。然而,这种特性在某些任务中会增加错误风险。
DeepSeek-R1在推理和创作方面表现出色,但也因此增加了幻觉。其长思维链和过度复杂的处理方式,使简单任务变得复杂,增加了错误的可能性。此外,文科任务的强化学习可能过分侧重创造性,导致事实准确性下降。
幻觉主要出现在语言创作领域,如摘要、翻译等任务。这反映了模型在高创造力与高度真实性之间的平衡问题。人类同样在文学与新闻报道中面临类似挑战。
为了减少幻觉,用户应保持警惕,进行交叉验证,并在提问时加入限定条件。增加联网搜索功能也能有效减少幻觉。未来研究需更精细地训练模型,根据不同任务调整其行为模式,实现创造力与准确性的平衡。
原文链接
本文链接:https://kx.umi6.com/article/13248.html
转载请注明文章出处
相关推荐
换一换
Take-Two CEO 泽尔尼克:AI 无法创造爆款游戏,真正的创造力属于人类
2025-10-27 09:54:24
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升
2025-11-18 10:09:26
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了
2026-03-27 23:23:11
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
692 文章
549324 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17