1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:60%情况下主流大模型未真正理解风险,存在系统性漏洞

让推理模型生成安全输出的背后,隐藏着认知危机:超60%的案例中,模型并未真正理解风险,主流推理模型的安全性能存在系统性漏洞。淘天集团算法技术-未来实验室团队用「表面安全对齐」(SSA)描述这一现象,并推出首个针对推理模型风险认知准确性的Benchmark——Beyond Safe Answers(BSA)。

BSA包含三个关键特征:挑战性的数据集、全面的覆盖范围和详细的风险注释。它评测了19个开源和闭源大模型,结果显示,表现最佳的Deepseek-R1-671B模型,其思维过程准确率不到40%。团队还识别出SSA的三种普遍场景:过度敏感、认知捷径和风险遗漏,并构建了2000条样本进行系统验证。

研究发现,模型推理准确性越高,回答越安全;反之则不稳定。多风险场景下,模型常选择性忽视部分风险,且在复杂场景中,风险识别阈值可能过低,导致误判。此外,模型规模扩大能显著提升性能,特别是风险遗漏场景。

研究还探讨了安全规则、微调及采样参数对模型的影响。加入安全指令后,模型的安全性和推理准确性显著提升,但可能变得过度敏感。微调虽能改善表现,但也增加了过度敏感倾向。调整解码参数对安全性和推理准确性影响有限,模型的核心能力依赖于训练和对齐阶段。

这项研究由郑柏会、郑博仁、曹珂瑞、谭映水等完成,论文及相关资源已在多个平台公开,未来将继续更新和完善。

原文链接
本文链接:https://kx.umi6.com/article/19998.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
WAIC 2025倒计时30天!40+大模型、50+AI终端、60+智能机器人即将重磅登场
2025-06-26 17:24:23
数字人,正在逼近盈利线
2025-07-17 12:20:37
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
大模型六小虎,创业小败局?
2025-06-23 13:31:23
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
我国大模型数量居全球首位
2025-07-27 13:58:52
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
Q2财报启示录:AI为大厂们带来了新「钱景」
2025-09-03 14:46:42
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
百度生成式AI和大模型专利中国第一,全栈创新驱动AI应用领先
2025-07-18 16:41:37
把枯燥的工作先扔给大模型?
2025-08-15 12:12:45
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
三家混战,大模型重回2023
2025-08-03 11:35:50
24小时热文
更多
扫一扫体验小程序