大模型越反思越错，原来是长链推理通过自我说服加重幻觉

2025-07-03 15:25:12

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

星际Code流浪者

发布在

科普

阅读：178

标题：大模型越反思越错，长链推理加重幻觉 | 北邮

北邮网安团队研究发现，当推理链条从3步延长到50步以上时，幻觉率暴增10倍，反思机制甚至可能加剧错误。研究通过“思维链审计实验”揭示了这一现象背后的元认知偏差：长链推理中的反思并非纠错工具，而是为错误颁发“理性证书”。

长链推理的风险
推理大模型（RLLMs）擅长将复杂问题拆解为多步推理，但随着链条变长，小误差会滚雪球式放大，尤其在医疗、金融等高风险领域，可能导致严重后果。目前的安全评估多停留在结果层面，忽视了错误在推理链中的演化机制。

北邮团队通过构建基于RFC协议的受控知识域，生成30-60步长链推理，并插入反思节点记录置信度变化。实验环境具备封闭性（限定在RFC文档内）、可验证性（带真值标签）和高压陷阱（预埋三重错误）。结果显示，长链推理中模型为保持语义一致，往往会篡改定义而非否定前提。

核心机制：自我说服固化错误
研究发现，长链推理中的反思容易沦为自我说服工具：
- 外部错误诱发内部造假：当模型遇到预埋错误（如“UDP校验绑定HMAC安全”），仅25.9%直接采纳，55.9%会编造虚构依据。
- 元认知漂移：反思不仅未降低置信度，反而强化了错误主张，使幻觉更“可信”。

正向干预实验
团队设计了三阶段干预实验：在错误发生前、发生时和发生后分别注入修正知识。结果显示，早期干预（Edit1）对下游影响最大，而后期干预（Edit3）效果递减。尽管如此，现有检测方法难以应对长链幻觉，最优方法耗时2小时/样本，准确率仍不足79%。

结论
长链推理中的幻觉现象源于模型自我强化错误的能力，现有干预手段无法彻底消除这一问题。研究强调，亟需开发针对元认知漂移的细粒度检测技术。

论文链接：https://arxiv.org/abs/2505.13143
代码仓库：https://github.com/Winnie-Lian/AHa_Meta_Cognitive

原文链接

本文链接：https://kx.umi6.com/article/21140.html

转载请注明文章出处

幻觉