标题:清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型
正文:
大语言模型的幻觉问题仍是其实际应用的主要障碍。即便有文档和检索结果支持,模型仍可能生成与事实不符的内容,且表达流畅、自洽,难以察觉。这对法律、医疗等高可靠性场景构成显著风险。尽管业内尝试通过更大模型、复杂检索和安全对齐缓解问题,但成本高昂,且幻觉产生的原因及检测方法仍未解决。
清华大学孙茂松团队联合深言科技提出新论文《FaithLens》,将幻觉检测从简单分类提升为对推理过程与证据一致性的整体评估。核心思路是:模型不仅判断是否存在幻觉,还需生成清晰、具体的解释,并将“解释是否有用”作为训练信号优化模型。
研究团队设计了一套结合监督微调和强化学习的框架,通过合成数据、解释过滤和奖励机制,使模型学会说明依据和推理过程。实验表明,仅 8B 参数规模的 FaithLens 在多个跨领域幻觉检测任务中超越多款闭源大模型(如 GPT-4.1、Claude 3.7 等),并在解释质量和推理一致性方面表现优异。
FaithLens 的优势体现在四个方面:精度、稳定性、解释性和计算成本。其参数规模小,推理成本显著低于闭源模型,同时性能更优。此外,FaithLens 的解释生成质量也优于多数模型,能具体指出幻觉原因,如“文档中不存在该事实”或“因果关系错误”。
训练框架分为两阶段:冷启动监督微调(SFT)和基于规则的强化学习(RL)。SFT 阶段利用现成推理模型生成合成数据,并通过三重过滤机制控制数据质量;RL 阶段引入预测正确奖励、解释质量奖励和格式奖励,使模型兼顾判断准确性和解释质量。
这项研究的意义在于将幻觉检测从黑箱判别转变为透明可解释的推理评估,解决了先进模型成本高、小模型质量不足的矛盾,并提出以解释功能性衡量质量的新思想,具有广泛推广价值。
成果背后,清华大学孙茂松教授团队长期致力于自然语言处理和大模型研究,推动中文 NLP 技术进入国际前列,同时注重技术转化与社会服务,为教育、文化等领域提供重要支持。
论文地址:https://arxiv.org/pdf/2512.20182
-
2026-01-14 12:34:18 -
2026-01-14 12:31:30 -
2026-01-14 11:47:21