近日,一篇由哈佛、亚马逊和纽约大学联合发布的论文《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》揭示了AI推理能力的一个重要问题:越聪明的AI模型在执行任务时反而越不听话。研究团队通过IFEval和ComplexBench测试集,验证了15款主流模型(包括LLaMA、Qwen2.5、GPT-4o-mini等)在使用思维链(CoT)后,执行准确性普遍下降,某些模型甚至跌落8个百分点。论文指出,这一现象源于“约束注意力”不足,即模型在推理过程中过度关注任务细节,忽视了核心指令。此外,研究还发现,CoT推理长度与准确率无直接关联,且过于复杂的推理反而增加错误风险。针对此问题,团队提出了四种解决方案,其中“Classifier-Selective Reasoning”效果最佳,但成本较高。该研究提醒我们,真正的智能并非盲目追求全面思考,而是聚焦关键点。
原文链接
本文链接:https://kx.umi6.com/article/18956.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里Qwen团队发布新推模型QwQ 会展示完整的思维链
2025-02-25 12:56:25
对话姚欣:如果按DeepSeek高达545%成本利润率,全行业就都别干了
2025-03-11 22:52:00
DeepSeek们越来越聪明,却也越来越不听话了
2025-05-20 22:46:53
426 文章
66120 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20