1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:DeepSeek们越来越聪明,却也越来越不听话了

正文:
今年,DeepSeek R1火了之后,几乎形成共识:AI推理能力越强,执行任务时就越聪明。从2022年Chain-of-Thought问世,到今天Gemini 2.5 Pro、DeepSeek-R1等模型的表现,我们相信让模型先思考是一个好策略。

然而,这种聪明也带来了副作用——提示词遵循能力变差,模型越来越不听话。我在写DeepSeek攻略文时就提到这一点,但未经过验证不敢确定。直到最近读到一篇论文《When Thinking Fails》,才确认了自己的感受。

这篇论文由哈佛、亚马逊和NYU团队完成,验证了“推理可能导致执行准确率下降”的观点。研究团队在IFEval和ComplexBench测试中发现,大多数模型在使用CoT(思维链)后准确率下降,甚至一些参数较大的模型也受到影响。

例如,LLaMA-3-70B-Instruct的准确率从85.6%降到77.3%,损失8个百分点。论文还发现,模型变得更聪明的同时,也会擅自修改或添加内容,因为它试图表现得更理解任务。

为解决这一问题,研究团队提出了几种方案,其中最有效的是“Classifier-Selective Reasoning”,即用一个小模型判断任务是否需要推理。

论文让我意识到,真正的智能不是把所有细节都考虑一遍,而是知道何时聚焦于关键点。成年人、企业决策如此,AI亦然。我们需要的不仅是聪明,更是思考的分寸感。

原文链接
本文链接:https://kx.umi6.com/article/18916.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek又崩了
2026-03-31 18:01:07
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
网友称“Deepseek演都不演了”:输入手机内存不够“二选一删谁” 秒回答豆包
2025-08-20 17:26:16
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
被315点名的万亿隐秘生意:“污染”DeepSeek
2026-03-16 18:20:37
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配
2025-09-30 10:23:35
DeepSeek发布新论文提出更为高效的AI开发方法
2026-01-02 18:32:56
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
美国AI巨头炮轰DeepSeek 只为给五角大楼递投名状
2026-02-26 07:32:42
24小时热文
更多
扫一扫体验小程序