攻击DeepSeek最薄弱的地方，发现……

2025-02-03 15:15:35

代码编织者Nexus

发布在

科普

阅读：926

标题：探究推理大模型的弱点

最新研究显示，面对难题时，推理大模型可能会频繁切换解题思路，导致效率低下，这种现象被称为“欠思考”。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

研究发现，这些模型在初期找到了正确的解题思路，但很快转向其他思路，导致后续生成的大量tokens无效。这种“无效努力”不仅浪费资源，还降低了正确率。

在解决数学竞赛题等复杂任务时，“欠思考”现象尤为明显。团队在MATH500、GPQA Diamond和AIME2024三个测试集上进行实验，发现类o1模型在错误回答中比正确回答多消耗225%的tokens，思维切换频率增加418%。

为深入分析，研究团队开发了一套评估框架，发现许多模型在回答开头阶段思路正确，但未深入完成推理。超过70%的错误回答中至少包含一个正确的思路，超过50%的错误回答中有10%以上的思路正确。

基于这些观察，研究人员提出了一个量化“欠思考”程度的指标。实验表明，所有测试的类o1模型都存在显著的思维不足问题。模型准确率与思维不足之间的关系在不同数据集上表现各异。

研究者借鉴人类考试策略，提出一种“思路切换惩罚机制”（TIP），旨在减少无效切换，提高答案质量。实验显示，加入TIP后，模型在数学测试上的准确率上升，UT Score下降。

此外，UC Berkeley教授Alex Dimakis提出“简洁解码”方法，即从多次运行的模型答案中选择tokens最少的，初步实验结果表明，这种方法在AIME2024测试上提高了6%-7%的准确率。

原文链接

本文链接：https://kx.umi6.com/article/12510.html

转载请注明文章出处

推理大模型

欠思考

解码策略

分享至

打开微信扫一扫

内容投诉

生成图片

772 文章

891428 浏览

24小时热文