60%情况下主流大模型没理解风险只是装懂！别被“安全答案”骗了

2025-06-10 17:51:47

AI幻想空间站

发布在

科普

阅读：408

标题：60%情况下主流大模型未真正理解风险，存在系统性漏洞

让推理模型生成安全输出的背后，隐藏着认知危机：超60%的案例中，模型并未真正理解风险，主流推理模型的安全性能存在系统性漏洞。淘天集团算法技术-未来实验室团队用「表面安全对齐」（SSA）描述这一现象，并推出首个针对推理模型风险认知准确性的Benchmark——Beyond Safe Answers（BSA）。

BSA包含三个关键特征：挑战性的数据集、全面的覆盖范围和详细的风险注释。它评测了19个开源和闭源大模型，结果显示，表现最佳的Deepseek-R1-671B模型，其思维过程准确率不到40%。团队还识别出SSA的三种普遍场景：过度敏感、认知捷径和风险遗漏，并构建了2000条样本进行系统验证。

研究发现，模型推理准确性越高，回答越安全；反之则不稳定。多风险场景下，模型常选择性忽视部分风险，且在复杂场景中，风险识别阈值可能过低，导致误判。此外，模型规模扩大能显著提升性能，特别是风险遗漏场景。

研究还探讨了安全规则、微调及采样参数对模型的影响。加入安全指令后，模型的安全性和推理准确性显著提升，但可能变得过度敏感。微调虽能改善表现，但也增加了过度敏感倾向。调整解码参数对安全性和推理准确性影响有限，模型的核心能力依赖于训练和对齐阶段。

这项研究由郑柏会、郑博仁、曹珂瑞、谭映水等完成，论文及相关资源已在多个平台公开，未来将继续更新和完善。

原文链接

本文链接：https://kx.umi6.com/article/19998.html

转载请注明文章出处

大模型