1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:奥特曼ChatGPT用法错了?最新研究显示“直接回答”降低准确率,思维链提示作用有限

沃顿商学院等机构的一项新研究表明,流行的“直接回答”提示会显著降低大模型的准确率。同时,研究发现思维链(CoT)提示对于推理模型效果有限,甚至可能适得其反。

研究团队基于GPQA Diamond数据集,测试了多个推理与非推理模型。结果显示,对于推理模型如o3-mini和o4-mini,CoT提示仅小幅提升了准确率(约3%),但大幅增加了时间成本(超过80%)。而对于非推理模型,如Gemini Flash 2.0,CoT提示虽提升了平均评分,但在高正确率指标下却导致性能下降。

实验中,研究者设置了三种条件:强制推理、直接回答及默认模式,针对每个模型重复测试75次,并评估了100%、90%、51%正确率及平均评分四个指标。结果表明,CoT提示在部分模型中提升了整体准确性,但增加了答案的不确定性。

此外,前沿模型如Gemini 2.5 Flash在启用CoT时,多项指标全面下降,而直接回答模式反而表现更好。研究指出,当前许多模型已内置推理能力,因此额外添加CoT提示未必必要。

报告链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

原文链接
本文链接:https://kx.umi6.com/article/19984.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
吃硬不吃软:宾夕法尼亚州立大学研究发现对 ChatGPT 无礼更能获得准确答案
2025-10-15 09:29:19
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
2025-01-24 16:45:09
用AI解读动物情绪:准确率达88%!
2025-02-17 14:52:53
研究实锤:别让大模型「想」太多,OpenAI o1准确率竟下降36.3%
2024-11-08 11:19:08
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
2025-06-10 14:47:54
AI工具识别虚假新闻准确率达99%
2025-01-20 09:04:53
研究:AI 医疗诊断平均准确率 52.1%,与非专家医生相当
2025-04-21 07:31:22
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
2025-01-20 17:20:47
全球首个光子芯片全链垂直大模型 LightSeek 开放:整合国内首条中试线数据,整体研发效率提升 7 倍
2025-12-08 18:40:02
Roblox CEO 巴祖基感叹 AI 研究速度:曾博览群书的自己,现在都快看不懂了
2025-12-08 19:43:05
马斯克“太空AI”设想:每年发射1百万吨AI卫星、建设月球卫星工厂
2025-12-08 16:37:25
中信证券:医疗健康产品销售线上化率有望迎来长足提升
2025-12-06 10:24:18
“人工智能教父” 辛顿:即便 AI 重塑编程行业,计算机科学学位仍具重要价值
2025-12-08 08:12:37
24小时热文
更多
扫一扫体验小程序