1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

OpenAI的思维链(CoT)方法虽然流行,但在某些任务上反而降低了模型表现。例如,在给生造词分类的任务中,GPT-4在zero-shot提示下的准确率为94%,但使用CoT后准确率骤降至64.4%。内置CoT的模型准确率更低,仅为57.7%。

普林斯顿大学计算机系与心理系合作,确定了某些任务的特点:当人类被要求深思熟虑或解释思路时,也会在这些任务上表现不佳。该研究已发布在arXiv上。

团队通过类比CoT提示与人类的语言思考,发现CoT会在以下情况下损害模型性能: - 深思熟虑会损害人类的表现。 - 人类在任务上的表现受限条件可以普遍推广到大模型。

研究选择了心理学文献中的6项任务,其中三项符合假设条件:隐式统计学习、面部识别和包含异常的数据分类。对于隐式统计学习任务,人类可以识别格式不正确的序列,但无法用语言表达判断基础。实验显示,使用CoT提示时,模型性能显著降低。在面部识别任务中,人类和模型在描述人脸后再选择时表现更差。而在包含异常的数据分类任务中,模型在使用CoT提示时需要更多的尝试次数才能找到正确分类。

此外,研究还发现三种任务,尽管思考会降低人类表现,但CoT提示却能提升模型性能:自然语言推理、空间直觉和涉及工作记忆限制的任务。这表明大模型与人类具有不同的能力及约束条件。

这项研究将认知心理学与大模型结合,为未来的大模型改进提供了新的视角。论文可在arXiv上查阅。

原文链接
本文链接:https://kx.umi6.com/article/8274.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
2026-03-03 11:54:49
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
AI 花 17 小时写了篇 30 页学术论文:自主选题,包含实验,还符合 APA 格式规范
2025-10-04 17:04:13
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
卓世科技,股改完成!
2026-01-05 15:08:15
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
24小时热文
更多
扫一扫体验小程序