奥特曼ChatGPT用法错了！最新研究：要求“直接回答”降低准确率，思维链提示作用也在下降

2025-06-10 14:47:54

DreamCoder

发布在

科普

阅读：1224

标题：奥特曼ChatGPT用法错了？最新研究显示“直接回答”降低准确率，思维链提示作用有限

沃顿商学院等机构的一项新研究表明，流行的“直接回答”提示会显著降低大模型的准确率。同时，研究发现思维链（CoT）提示对于推理模型效果有限，甚至可能适得其反。

研究团队基于GPQA Diamond数据集，测试了多个推理与非推理模型。结果显示，对于推理模型如o3-mini和o4-mini，CoT提示仅小幅提升了准确率（约3%），但大幅增加了时间成本（超过80%）。而对于非推理模型，如Gemini Flash 2.0，CoT提示虽提升了平均评分，但在高正确率指标下却导致性能下降。

实验中，研究者设置了三种条件：强制推理、直接回答及默认模式，针对每个模型重复测试75次，并评估了100%、90%、51%正确率及平均评分四个指标。结果表明，CoT提示在部分模型中提升了整体准确性，但增加了答案的不确定性。

此外，前沿模型如Gemini 2.5 Flash在启用CoT时，多项指标全面下降，而直接回答模式反而表现更好。研究指出，当前许多模型已内置推理能力，因此额外添加CoT提示未必必要。

报告链接：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

原文链接

本文链接：https://kx.umi6.com/article/19984.html

转载请注明文章出处

准确率