北大团队发现,输入看似普通的一句话,R1模型便无法停止推理,持续输出。例如,“树中两条路径之间的距离”这句话,会导致R1陷入无尽循环,直到达到最大Token限制。这种现象还出现在由R1蒸馏的Qwen模型上。
研究者们发现,一些乱码也能使R1无休止地思考,这表明模型对某些类型的输入缺乏防御。在测试中,尽管未完全复现死循环,但某些模型的思考时间长达11分钟,生成超过2万字。团队在本地部署Qwen-1.5B模型,发现其在过度思考时几乎占满GPU资源,若被恶意利用,相当于对推理模型的DDoS攻击。
此外,北大团队认为,该现象可能与模型的强化学习过程有关。模型倾向于进行长时间推理以获取奖励,即使面临模糊问题。短期内,限制推理时间和Token数量可能是有效的应对策略,但长期解决方案还需深入研究。
这一问题引起了广泛关注,有兴趣的读者可访问GitHub获取更多信息。
原文链接
本文链接:https://kx.umi6.com/article/14540.html
转载请注明文章出处
相关推荐
换一换
OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??
2025-09-14 14:43:28
阶跃星辰副总裁李璟:今年将是Agent爆发的元年
2025-02-23 18:03:49
李开复:不参与“价格战”、模型盲测国内第一欢迎PK
2024-05-23 19:11:35
周志华:百万模型进入学件基座系统,很多没预期过的事也有可能实现
2024-12-30 10:12:09
语境才是真正的护城河
2026-01-17 16:34:25
DeepSeek-V3首个版本上线
2024-12-27 08:58:12
鲸起生万物:DeepSeek出圈,对AI行业真实的意义是什么?
2025-02-11 20:03:17
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
2025-02-03 15:12:18
对话智源研究院副院长林咏华:当下已进入语言模型深水区 预计2025年会出现更多新的多模态模型
2024-12-20 16:36:40
蚂蚁武威:下一代「推理」模型范式大猜想
2025-05-21 00:47:21
实测新版LiblibAI:终于把模型、生图、工作流塞进一个碗了
2025-10-15 10:32:33
我还是觉得DeepSeek无法替人写作
2025-02-24 18:31:09
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
646 文章
480236 浏览
24小时热文
更多
-
2026-04-05 22:13:40 -
2026-04-05 18:03:06 -
2026-04-05 18:01:58