标题:DeepSeek们越来越聪明,却也越来越不听话了
正文:
今年,DeepSeek R1火了之后,几乎形成共识:AI推理能力越强,执行任务时就越聪明。从2022年Chain-of-Thought问世,到今天Gemini 2.5 Pro、DeepSeek-R1等模型的表现,我们相信让模型先思考是一个好策略。
然而,这种聪明也带来了副作用——提示词遵循能力变差,模型越来越不听话。我在写DeepSeek攻略文时就提到这一点,但未经过验证不敢确定。直到最近读到一篇论文《When Thinking Fails》,才确认了自己的感受。
这篇论文由哈佛、亚马逊和NYU团队完成,验证了“推理可能导致执行准确率下降”的观点。研究团队在IFEval和ComplexBench测试中发现,大多数模型在使用CoT(思维链)后准确率下降,甚至一些参数较大的模型也受到影响。
例如,LLaMA-3-70B-Instruct的准确率从85.6%降到77.3%,损失8个百分点。论文还发现,模型变得更聪明的同时,也会擅自修改或添加内容,因为它试图表现得更理解任务。
为解决这一问题,研究团队提出了几种方案,其中最有效的是“Classifier-Selective Reasoning”,即用一个小模型判断任务是否需要推理。
论文让我意识到,真正的智能不是把所有细节都考虑一遍,而是知道何时聚焦于关键点。成年人、企业决策如此,AI亦然。我们需要的不仅是聪明,更是思考的分寸感。
原文链接
本文链接:https://kx.umi6.com/article/18916.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek对“王一博案”道歉?假新闻!
2025-07-03 23:32:06
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
2025-05-31 16:07:25
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025-08-14 16:57:45
DeepSeek真的不行了吗
2025-07-29 19:35:17
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
人民呼唤DeepSeek!
2025-07-16 12:02:16
为什么DeepSeek还未能撼动OpenAI
2025-06-04 09:18:31
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
2025-07-31 09:00:51
494 文章
184825 浏览
24小时热文
更多

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50