北大团队发现,输入看似普通的一句话,R1模型便无法停止推理,持续输出。例如,“树中两条路径之间的距离”这句话,会导致R1陷入无尽循环,直到达到最大Token限制。这种现象还出现在由R1蒸馏的Qwen模型上。
研究者们发现,一些乱码也能使R1无休止地思考,这表明模型对某些类型的输入缺乏防御。在测试中,尽管未完全复现死循环,但某些模型的思考时间长达11分钟,生成超过2万字。团队在本地部署Qwen-1.5B模型,发现其在过度思考时几乎占满GPU资源,若被恶意利用,相当于对推理模型的DDoS攻击。
此外,北大团队认为,该现象可能与模型的强化学习过程有关。模型倾向于进行长时间推理以获取奖励,即使面临模糊问题。短期内,限制推理时间和Token数量可能是有效的应对策略,但长期解决方案还需深入研究。
这一问题引起了广泛关注,有兴趣的读者可访问GitHub获取更多信息。
原文链接
本文链接:https://kx.umi6.com/article/14540.html
转载请注明文章出处
相关推荐
换一换
中国AI竞争加剧:苹果AI选合作,腾讯字节囤46万张GPU、模型能力排前列
2024-12-19 20:06:30
OpenAI正式发布GPT-5.5
2026-04-24 09:02:17
DeepSeek的“服务器繁忙”让所有人抓狂,背后究竟是怎么回事
2025-02-13 10:59:42
DeepSeek的“服务器繁忙”让所有人抓狂,背后究竟是怎么回事
2025-02-17 14:49:38
腾讯混元文生图开源大模型加速库发布:生图时间缩短 75%
2024-06-06 14:59:16
DeepSeek R1来了,追平o1!
2025-01-21 17:39:43
DeepSeek的“服务器繁忙”让所有人抓狂,背后究竟是怎么回事
2025-02-17 14:49:38
大语言模型“狂飙”,如何与具身智能领域紧密结合?
2025-02-20 19:25:17
谷歌推出轻量级模型Gemini 2.5 Flash-Lite
2025-06-18 09:36:11
过去一个月,AI的进化是突破性的
2024-12-24 13:32:31
百度AI,要靠Killer App赚钱
2024-05-23 19:05:16
6天连发6模型,阶跃稳稳蝉联多模态卷王
2025-01-22 12:56:12
不会打游戏的大模型不是好AI?甲骨文最强模型用《宝可梦》当“期末考”
2025-02-25 16:06:11
672 文章
574410 浏览
24小时热文
更多
-
2026-05-22 09:30:37 -
2026-05-22 08:31:16 -
2026-05-22 08:30:10