
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
最新研究发现,推理大模型在处理高难度问题时会出现“欠思考”现象,频繁切换解题思路导致无效努力。腾讯AI实验室、苏州大学和上海交大团队通过分析DeepSeek-R1和Qwen QwQ系列模型,指出这些模型在初期找到正确思路后,很快转向其他思路,浪费计算资源。研究显示,类o1模型在错误回答中比正确回答多消耗225%的token,思维切换频率增加418%。为解决此问题,研究者提出“思路切换惩罚机制”(TIP),使模型在AIME2024测试中准确率提升4%。同时,UC Berkeley教授Alex Dimakis建议采用“简洁解码”策略,提高6%-7%的准确率。
原文链接
最新研究揭示,推理大模型如DeepSeek-R1和Qwen QwQ在处理高难度问题时易出现‘欠思考’现象,即频繁切换解题思路但缺乏深入探索,导致答案不准确且浪费计算资源。研究团队来自腾讯AI实验室、苏州大学和上海交通大学,通过分析模型错误答案发现,这类模型在思考早期就走上正确路线,但很快转向其他思路。实验显示,类o1模型在错误回答中比正确回答多消耗225%的token,思维切换频率增加418%。为解决此问题,研究者提出“思路切换惩罚机制”(TIP),使模型在当前路径上探索更久,实验结果表明准确率提升且UT Score下降。此外,UC Berkeley教授Alex Dimakis提出“简洁解码”方法,通过并行运行多次模型选择最简答案,提高准确率6%-7%。
原文链接
加载更多

暂无内容