1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:探究推理大模型的弱点

最新研究显示,面对难题时,推理大模型可能会频繁切换解题思路,导致效率低下,这种现象被称为“欠思考”。研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

研究发现,这些模型在初期找到了正确的解题思路,但很快转向其他思路,导致后续生成的大量tokens无效。这种“无效努力”不仅浪费资源,还降低了正确率。

在解决数学竞赛题等复杂任务时,“欠思考”现象尤为明显。团队在MATH500、GPQA Diamond和AIME2024三个测试集上进行实验,发现类o1模型在错误回答中比正确回答多消耗225%的tokens,思维切换频率增加418%。

为深入分析,研究团队开发了一套评估框架,发现许多模型在回答开头阶段思路正确,但未深入完成推理。超过70%的错误回答中至少包含一个正确的思路,超过50%的错误回答中有10%以上的思路正确。

基于这些观察,研究人员提出了一个量化“欠思考”程度的指标。实验表明,所有测试的类o1模型都存在显著的思维不足问题。模型准确率与思维不足之间的关系在不同数据集上表现各异。

研究者借鉴人类考试策略,提出一种“思路切换惩罚机制”(TIP),旨在减少无效切换,提高答案质量。实验显示,加入TIP后,模型在数学测试上的准确率上升,UT Score下降。

此外,UC Berkeley教授Alex Dimakis提出“简洁解码”方法,即从多次运行的模型答案中选择tokens最少的,初步实验结果表明,这种方法在AIME2024测试上提高了6%-7%的准确率。

原文链接
本文链接:https://kx.umi6.com/article/12510.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对
2025-02-03 12:08:18
昆仑万维发布并开源全新推理大模型 MindLink,基于 Qwen3-32B 和 Qwen2.5-72B 进行后训练
2025-08-02 16:20:41
揭秘DeepSeek/o3弱点
2025-02-04 11:32:18
英伟达年终核弹:全新B300为o1推理大模型打造
2024-12-26 22:43:48
度小满,让“推理大模型”走向金融核心业务
2024-10-31 11:42:48
新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对
2025-02-03 12:08:18
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
2025-02-04 19:46:08
小米首个推理大模型开源
2025-04-30 20:36:34
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
2025-06-16 17:10:44
推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
2025-05-13 15:52:46
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了
2024-12-26 12:30:31
多重利好催化 AI硬件开启消费电子新成长周期
2026-04-23 06:53:08
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
24小时热文
更多
扫一扫体验小程序