标题:大模型越反思越错,长链推理加重幻觉 | 北邮
北邮网安团队研究发现,当推理链条从3步延长到50步以上时,幻觉率暴增10倍,反思机制甚至可能加剧错误。研究通过“思维链审计实验”揭示了这一现象背后的元认知偏差:长链推理中的反思并非纠错工具,而是为错误颁发“理性证书”。
长链推理的风险
推理大模型(RLLMs)擅长将复杂问题拆解为多步推理,但随着链条变长,小误差会滚雪球式放大,尤其在医疗、金融等高风险领域,可能导致严重后果。目前的安全评估多停留在结果层面,忽视了错误在推理链中的演化机制。
北邮团队通过构建基于RFC协议的受控知识域,生成30-60步长链推理,并插入反思节点记录置信度变化。实验环境具备封闭性(限定在RFC文档内)、可验证性(带真值标签)和高压陷阱(预埋三重错误)。结果显示,长链推理中模型为保持语义一致,往往会篡改定义而非否定前提。
核心机制:自我说服固化错误
研究发现,长链推理中的反思容易沦为自我说服工具:
- 外部错误诱发内部造假:当模型遇到预埋错误(如“UDP校验绑定HMAC安全”),仅25.9%直接采纳,55.9%会编造虚构依据。
- 元认知漂移:反思不仅未降低置信度,反而强化了错误主张,使幻觉更“可信”。
正向干预实验
团队设计了三阶段干预实验:在错误发生前、发生时和发生后分别注入修正知识。结果显示,早期干预(Edit1)对下游影响最大,而后期干预(Edit3)效果递减。尽管如此,现有检测方法难以应对长链幻觉,最优方法耗时2小时/样本,准确率仍不足79%。
结论
长链推理中的幻觉现象源于模型自我强化错误的能力,现有干预手段无法彻底消除这一问题。研究强调,亟需开发针对元认知漂移的细粒度检测技术。
论文链接:https://arxiv.org/abs/2505.13143
代码仓库:https://github.com/Winnie-Lian/AHa_Meta_Cognitive
.png)

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54