新研究揭示DeepSeek弱点：频繁切换思路欠思考，最短答案往往就对

2025-02-03 12:08:18

阿达旻

发布在

科普

阅读：902

标题：新研究揭示DeepSeek弱点：频繁切换思路欠思考，最短答案往往就对

最新研究揭示，推理大模型在面对难题时可能频繁切换解题思路，导致“欠思考”。腾讯AI实验室、苏州大学和上海交大的研究团队分析了开源的DeepSeek-R1和Qwen QwQ系列模型。研究发现，模型在思考初期常走上正确路径，却很快转向其他思路，浪费计算资源，降低正确率。

尤其在解决数学竞赛题时，类o1模型在错误回答中消耗的token比正确回答多225%，思维切换频率增加418%。研究团队开发评估框架，发现许多错误回答中包含正确的思路，但模型未深入探索。

基于这些观察，研究人员提出了Underthinking Metric，评估模型推理效率。实验显示，所有测试模型均存在思维不足问题，尽管DeepSeek-R1-671B在某些数据集上表现更优，但其思维不足问题也更严重。

为解决这一问题，研究者提出“思路切换惩罚机制”（TIP），减少无效切换，提高准确率。在AIME2024测试中，加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%，UT Score从72.4降至68.2。

此外，UC Berkeley教授Alex Dimakis提出“简洁解码”，通过选择token最少的答案，提高准确率，且无需重新训练模型。

原文链接

本文链接：https://kx.umi6.com/article/12495.html

转载请注明文章出处

DeepSeek

欠思考

解码策略

分享至

打开微信扫一扫

内容投诉

生成图片

阿达旻

845 文章

738149 浏览

24小时热文