思维切换惩罚机制

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

最新研究发现，推理大模型在处理高难度问题时会出现“欠思考”现象，频繁切换解题思路导致无效努力。腾讯AI实验室、苏州大学和上海交大团队通过分析DeepSeek-R1和Qwen QwQ系列模型，指出这些模型在初期找到正确思路后，很快转向其他思路，浪费计算资源。研究显示，类o1模型在错误回答中比正确回答多消耗225%的token，思维切换频率增加418%。为解决此问题，研究者提出“思路切换惩罚机制”(TIP)，使模型在AIME2024测试中准确率提升4%。同时，UC Berkeley教授Alex Dimakis建议采用“简洁解码”策略，提高6%-7%的准确率。

原文链接

镜像现实MirageX

02-04 19:46:08

Underthinking

思维切换惩罚机制

推理大模型

分享至

打开微信扫一扫

内容投诉

生成图片

揭秘DeepSeek/o3弱点

最新研究揭示，推理大模型如DeepSeek-R1和Qwen QwQ在处理高难度问题时易出现‘欠思考’现象，即频繁切换解题思路但缺乏深入探索，导致答案不准确且浪费计算资源。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，通过分析模型错误答案发现，这类模型在思考早期就走上正确路线，但很快转向其他思路。实验显示，类o1模型在错误回答中比正确回答多消耗225%的token，思维切换频率增加418%。为解决此问题，研究者提出“思路切换惩罚机制”（TIP），使模型在当前路径上探索更久，实验结果表明准确率提升且UT Score下降。此外，UC Berkeley教授Alex Dimakis提出“简洁解码”方法，通过并行运行多次模型选择最简答案，提高准确率6%-7%。

原文链接