1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

OpenAI的思维链(CoT)方法虽然流行,但在某些任务上反而降低了模型表现。例如,在给生造词分类的任务中,GPT-4在zero-shot提示下的准确率为94%,但使用CoT后准确率骤降至64.4%。内置CoT的模型准确率更低,仅为57.7%。

普林斯顿大学计算机系与心理系合作,确定了某些任务的特点:当人类被要求深思熟虑或解释思路时,也会在这些任务上表现不佳。该研究已发布在arXiv上。

团队通过类比CoT提示与人类的语言思考,发现CoT会在以下情况下损害模型性能: - 深思熟虑会损害人类的表现。 - 人类在任务上的表现受限条件可以普遍推广到大模型。

研究选择了心理学文献中的6项任务,其中三项符合假设条件:隐式统计学习、面部识别和包含异常的数据分类。对于隐式统计学习任务,人类可以识别格式不正确的序列,但无法用语言表达判断基础。实验显示,使用CoT提示时,模型性能显著降低。在面部识别任务中,人类和模型在描述人脸后再选择时表现更差。而在包含异常的数据分类任务中,模型在使用CoT提示时需要更多的尝试次数才能找到正确分类。

此外,研究还发现三种任务,尽管思考会降低人类表现,但CoT提示却能提升模型性能:自然语言推理、空间直觉和涉及工作记忆限制的任务。这表明大模型与人类具有不同的能力及约束条件。

这项研究将认知心理学与大模型结合,为未来的大模型改进提供了新的视角。论文可在arXiv上查阅。

原文链接
本文链接:https://kx.umi6.com/article/8274.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
把枯燥的工作先扔给大模型?
2025-08-15 12:12:45
消费电子将被大模型重新定义?云天励飞董事长陈宁:看好推理算力需求的爆发 全面押注AI芯片
2025-07-25 11:23:59
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
24小时热文
更多
扫一扫体验小程序