标题:奥特曼ChatGPT用法错了?最新研究显示“直接回答”降低准确率,思维链提示作用有限
沃顿商学院等机构的一项新研究表明,流行的“直接回答”提示会显著降低大模型的准确率。同时,研究发现思维链(CoT)提示对于推理模型效果有限,甚至可能适得其反。
研究团队基于GPQA Diamond数据集,测试了多个推理与非推理模型。结果显示,对于推理模型如o3-mini和o4-mini,CoT提示仅小幅提升了准确率(约3%),但大幅增加了时间成本(超过80%)。而对于非推理模型,如Gemini Flash 2.0,CoT提示虽提升了平均评分,但在高正确率指标下却导致性能下降。
实验中,研究者设置了三种条件:强制推理、直接回答及默认模式,针对每个模型重复测试75次,并评估了100%、90%、51%正确率及平均评分四个指标。结果表明,CoT提示在部分模型中提升了整体准确性,但增加了答案的不确定性。
此外,前沿模型如Gemini 2.5 Flash在启用CoT时,多项指标全面下降,而直接回答模式反而表现更好。研究指出,当前许多模型已内置推理能力,因此额外添加CoT提示未必必要。
报告链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
原文链接
本文链接:https://kx.umi6.com/article/19984.html
转载请注明文章出处
相关推荐
.png)
换一换
“百镜大战”催热供应链 AI端侧落地驶入快车道|AI 2025前瞻系列①
2024-12-29 21:01:11
马斯克畅想脑机接口:明年让盲人复明
2025-06-30 10:41:37
民生证券:AI搜索有望成为首个商业化落地的C端超级应用
2024-11-12 09:01:38
479 文章
76583 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21