标题:新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对
最新研究揭示,推理大模型在面对难题时可能频繁切换解题思路,导致“欠思考”。腾讯AI实验室、苏州大学和上海交大的研究团队分析了开源的DeepSeek-R1和Qwen QwQ系列模型。研究发现,模型在思考初期常走上正确路径,却很快转向其他思路,浪费计算资源,降低正确率。
尤其在解决数学竞赛题时,类o1模型在错误回答中消耗的token比正确回答多225%,思维切换频率增加418%。研究团队开发评估框架,发现许多错误回答中包含正确的思路,但模型未深入探索。
基于这些观察,研究人员提出了Underthinking Metric,评估模型推理效率。实验显示,所有测试模型均存在思维不足问题,尽管DeepSeek-R1-671B在某些数据集上表现更优,但其思维不足问题也更严重。
为解决这一问题,研究者提出“思路切换惩罚机制”(TIP),减少无效切换,提高准确率。在AIME2024测试中,加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%,UT Score从72.4降至68.2。
此外,UC Berkeley教授Alex Dimakis提出“简洁解码”,通过选择token最少的答案,提高准确率,且无需重新训练模型。
原文链接
本文链接:https://kx.umi6.com/article/12495.html
转载请注明文章出处
相关推荐
换一换
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
黄仁勋力赞 DeepSeek,称中国创新的步伐不可能被阻挡
2025-07-21 09:13:49
奥尔特曼:DeepSeek 团队很有才华,但他们没找到比 OpenAI 更高效的方法
2025-07-21 21:22:47
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
六大AI模型被扔进加密市场厮杀,DeepSeek暂为交易之王
2025-10-20 18:12:39
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了
2026-03-30 11:42:07
DeepSeek又一论文上新
2026-02-27 15:54:06
黄仁勋力赞DeepSeek 对中国创新能力充满信心
2025-07-21 04:12:05
DeepSeek又崩了
2026-03-31 18:01:07
DeepSeek网页、APP服务出现重大中断
2026-03-30 08:41:20
823 文章
641415 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38