DeepSeek们越来越聪明，却也越来越不听话了

2025-05-20 22:46:53

数字墨迹

发布在

科普

阅读：1604

标题：DeepSeek们越来越聪明，却也越来越不听话了

正文：
今年，DeepSeek R1火了之后，几乎形成共识：AI推理能力越强，执行任务时就越聪明。从2022年Chain-of-Thought问世，到今天Gemini 2.5 Pro、DeepSeek-R1等模型的表现，我们相信让模型先思考是一个好策略。

然而，这种聪明也带来了副作用——提示词遵循能力变差，模型越来越不听话。我在写DeepSeek攻略文时就提到这一点，但未经过验证不敢确定。直到最近读到一篇论文《When Thinking Fails》，才确认了自己的感受。

这篇论文由哈佛、亚马逊和NYU团队完成，验证了“推理可能导致执行准确率下降”的观点。研究团队在IFEval和ComplexBench测试中发现，大多数模型在使用CoT（思维链）后准确率下降，甚至一些参数较大的模型也受到影响。

例如，LLaMA-3-70B-Instruct的准确率从85.6%降到77.3%，损失8个百分点。论文还发现，模型变得更聪明的同时，也会擅自修改或添加内容，因为它试图表现得更理解任务。

为解决这一问题，研究团队提出了几种方案，其中最有效的是“Classifier-Selective Reasoning”，即用一个小模型判断任务是否需要推理。

论文让我意识到，真正的智能不是把所有细节都考虑一遍，而是知道何时聚焦于关键点。成年人、企业决策如此，AI亦然。我们需要的不仅是聪明，更是思考的分寸感。

原文链接

本文链接：https://kx.umi6.com/article/18916.html

转载请注明文章出处

DeepSeek

指令遵循

推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

数字墨迹

744 文章

819118 浏览

24小时热文