1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:60%情况下主流大模型未真正理解风险,存在系统性漏洞

让推理模型生成安全输出的背后,隐藏着认知危机:超60%的案例中,模型并未真正理解风险,主流推理模型的安全性能存在系统性漏洞。淘天集团算法技术-未来实验室团队用「表面安全对齐」(SSA)描述这一现象,并推出首个针对推理模型风险认知准确性的Benchmark——Beyond Safe Answers(BSA)。

BSA包含三个关键特征:挑战性的数据集、全面的覆盖范围和详细的风险注释。它评测了19个开源和闭源大模型,结果显示,表现最佳的Deepseek-R1-671B模型,其思维过程准确率不到40%。团队还识别出SSA的三种普遍场景:过度敏感、认知捷径和风险遗漏,并构建了2000条样本进行系统验证。

研究发现,模型推理准确性越高,回答越安全;反之则不稳定。多风险场景下,模型常选择性忽视部分风险,且在复杂场景中,风险识别阈值可能过低,导致误判。此外,模型规模扩大能显著提升性能,特别是风险遗漏场景。

研究还探讨了安全规则、微调及采样参数对模型的影响。加入安全指令后,模型的安全性和推理准确性显著提升,但可能变得过度敏感。微调虽能改善表现,但也增加了过度敏感倾向。调整解码参数对安全性和推理准确性影响有限,模型的核心能力依赖于训练和对齐阶段。

这项研究由郑柏会、郑博仁、曹珂瑞、谭映水等完成,论文及相关资源已在多个平台公开,未来将继续更新和完善。

原文链接
本文链接:https://kx.umi6.com/article/19998.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
2025-06-10 14:49:04
60%情况下主流大模型没理解风险只是装懂!别被“安全答案”骗了
2025-06-10 17:51:47
训练大模型烧了那么多钱,商业价值到底在哪?
2025-07-04 09:39:31
24小时热文
更多
扫一扫体验小程序