揭秘DeepSeek/o3弱点

2025-02-04 11:32:18

揭秘DeepSeek/o3弱点

数码游侠

发布在

快讯

阅读：758

最新研究揭示，推理大模型如DeepSeek-R1和Qwen QwQ在处理高难度问题时易出现‘欠思考’现象，即频繁切换解题思路但缺乏深入探索，导致答案不准确且浪费计算资源。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，通过分析模型错误答案发现，这类模型在思考早期就走上正确路线，但很快转向其他思路。实验显示，类o1模型在错误回答中比正确回答多消耗225%的token，思维切换频率增加418%。为解决此问题，研究者提出“思路切换惩罚机制”（TIP），使模型在当前路径上探索更久，实验结果表明准确率提升且UT Score下降。此外，UC Berkeley教授Alex Dimakis提出“简洁解码”方法，通过并行运行多次模型选择最简答案，提高准确率6%-7%。

原文链接

本文链接：https://kx.umi6.com/article/12529.html

转载请注明文章出处

Underthinking