标题:新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对
最新研究揭示,推理大模型在面对难题时可能频繁切换解题思路,导致“欠思考”。腾讯AI实验室、苏州大学和上海交大的研究团队分析了开源的DeepSeek-R1和Qwen QwQ系列模型。研究发现,模型在思考初期常走上正确路径,却很快转向其他思路,浪费计算资源,降低正确率。
尤其在解决数学竞赛题时,类o1模型在错误回答中消耗的token比正确回答多225%,思维切换频率增加418%。研究团队开发评估框架,发现许多错误回答中包含正确的思路,但模型未深入探索。
基于这些观察,研究人员提出了Underthinking Metric,评估模型推理效率。实验显示,所有测试模型均存在思维不足问题,尽管DeepSeek-R1-671B在某些数据集上表现更优,但其思维不足问题也更严重。
为解决这一问题,研究者提出“思路切换惩罚机制”(TIP),减少无效切换,提高准确率。在AIME2024测试中,加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%,UT Score从72.4降至68.2。
此外,UC Berkeley教授Alex Dimakis提出“简洁解码”,通过选择token最少的答案,提高准确率,且无需重新训练模型。
原文链接
本文链接:https://kx.umi6.com/article/12495.html
转载请注明文章出处
相关推荐
换一换
DeepSeek昨天悄悄扔的炸弹,今天爆了
2025-08-22 17:51:00
DeepSeek又一论文上新
2026-02-27 15:54:06
黄仁勋新年第一场演讲提了DeepSeek 推动了整个行业变革
2026-01-06 08:54:05
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
DeepSeek服务恢复正常 此前崩溃约12小时
2026-03-30 10:43:55
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
DeepSeek:特殊字符引发模型幻觉 不涉及安全问题或隐私泄露
2026-05-19 19:54:37
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万
2025-09-18 13:51:50
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
845 文章
738149 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08