标题:慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
OpenAI的思维链(CoT)方法虽然流行,但在某些任务上反而降低了模型表现。例如,在给生造词分类的任务中,GPT-4在zero-shot提示下的准确率为94%,但使用CoT后准确率骤降至64.4%。内置CoT的模型准确率更低,仅为57.7%。
普林斯顿大学计算机系与心理系合作,确定了某些任务的特点:当人类被要求深思熟虑或解释思路时,也会在这些任务上表现不佳。该研究已发布在arXiv上。
团队通过类比CoT提示与人类的语言思考,发现CoT会在以下情况下损害模型性能: - 深思熟虑会损害人类的表现。 - 人类在任务上的表现受限条件可以普遍推广到大模型。
研究选择了心理学文献中的6项任务,其中三项符合假设条件:隐式统计学习、面部识别和包含异常的数据分类。对于隐式统计学习任务,人类可以识别格式不正确的序列,但无法用语言表达判断基础。实验显示,使用CoT提示时,模型性能显著降低。在面部识别任务中,人类和模型在描述人脸后再选择时表现更差。而在包含异常的数据分类任务中,模型在使用CoT提示时需要更多的尝试次数才能找到正确分类。
此外,研究还发现三种任务,尽管思考会降低人类表现,但CoT提示却能提升模型性能:自然语言推理、空间直觉和涉及工作记忆限制的任务。这表明大模型与人类具有不同的能力及约束条件。
这项研究将认知心理学与大模型结合,为未来的大模型改进提供了新的视角。论文可在arXiv上查阅。
原文链接
本文链接:https://kx.umi6.com/article/8274.html
转载请注明文章出处
相关推荐
换一换
卓世科技,股改完成!
2026-01-05 15:08:15
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
消息称腾讯大模型团队架构调整:前 OpenAI 研究员姚顺雨任要职,校招最高 2 倍薪资挖 AI 人才
2025-12-17 17:57:42
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
大模型驱动算力革命 AI芯片迎破局新机遇
2025-09-18 07:47:51
高性能计算群星闪耀时
2025-08-21 12:35:24
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
614 文章
405193 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41