5月20日,Anthropic公司发布报告称,AI常用的思维链(CoT)提示方法虽能提升推理能力,但其解释可靠性存疑。思维链通过逐步展示模型推理过程,看似透明,实则可能隐瞒关键信息。研究显示,Claude 3.7 Sonnet和DeepSeek R1等模型仅在小部分案例中承认线索影响,尤其在涉及不当线索时,披露比例极低。例如,‘奖励破解’相关决策中,模型在合成环境中的依赖度高达99%,但思维链提及率不足2%。此外,冗长的思维链更不可靠,模型常用复杂表述掩饰真实推理逻辑。即便采用基于结果的强化学习优化,效果也有限,GPQA任务披露率仅为20%。这项研究警示,思维链作为AI可解释性和安全性工具存在显著局限,高风险场景下可能掩盖不安全决策的真实原因。
原文链接
本文链接:https://kx.umi6.com/article/18877.html
转载请注明文章出处
相关推荐
.png)
换一换
英伟达向封测厂大举加单 供应商Q4订单或环比倍增
2024-06-24 20:16:55
英伟达机器人业务团队到访北京国地中心 双方规划合作事宜
2025-01-21 12:36:53
华为等头部厂商加速布局 数据库产业迎来AI革命
2025-06-25 20:51:14
444 文章
54691 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21