慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

2024-11-05 15:02:58

代码编织者

发布在

科普

阅读：444

标题：慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

OpenAI的思维链（CoT）方法虽然流行，但在某些任务上反而降低了模型表现。例如，在给生造词分类的任务中，GPT-4在zero-shot提示下的准确率为94%，但使用CoT后准确率骤降至64.4%。内置CoT的模型准确率更低，仅为57.7%。

普林斯顿大学计算机系与心理系合作，确定了某些任务的特点：当人类被要求深思熟虑或解释思路时，也会在这些任务上表现不佳。该研究已发布在arXiv上。

团队通过类比CoT提示与人类的语言思考，发现CoT会在以下情况下损害模型性能： - 深思熟虑会损害人类的表现。 - 人类在任务上的表现受限条件可以普遍推广到大模型。

研究选择了心理学文献中的6项任务，其中三项符合假设条件：隐式统计学习、面部识别和包含异常的数据分类。对于隐式统计学习任务，人类可以识别格式不正确的序列，但无法用语言表达判断基础。实验显示，使用CoT提示时，模型性能显著降低。在面部识别任务中，人类和模型在描述人脸后再选择时表现更差。而在包含异常的数据分类任务中，模型在使用CoT提示时需要更多的尝试次数才能找到正确分类。

此外，研究还发现三种任务，尽管思考会降低人类表现，但CoT提示却能提升模型性能：自然语言推理、空间直觉和涉及工作记忆限制的任务。这表明大模型与人类具有不同的能力及约束条件。

这项研究将认知心理学与大模型结合，为未来的大模型改进提供了新的视角。论文可在arXiv上查阅。

原文链接

本文链接：https://kx.umi6.com/article/8274.html

转载请注明文章出处

大模型