智谱揭示“降智”原因:Scaling的隐痛与解决之道
量子位 | 公众号 QbitAI
作者:鹭羽
Scaling即正义?智谱团队却在最新技术博客中坦言,这一过程并非一帆风顺。他们将GLM-5系列模型在高负载下出现的异常现象称为“Scaling Pain”,并详细分享了踩坑经历与解决方案。
自GLM-5发布以来,用户反馈了一些复杂Coding Agent任务中的异常问题,包括乱码、重复生成和生僻字符。然而,这些异常在线下环境中难以复现,给排查带来了巨大挑战。经过数周努力,团队发现问题根源在于高负载下的推理状态管理,特别是KV Cache的竞态冲突和加载时序缺失。
针对乱码和生僻字符问题,团队发现投机采样(Speculative Decoding)指标异常低,表明草稿模型与目标模型的KV缓存不匹配;而复读问题则与损坏的KV缓存导致注意力模式退化有关。基于此,智谱设计了一套在线异常监控策略,通过设置spec_accept_length和spec_accept_rate阈值,主动中止异常生成请求。
为彻底解决问题,团队优化了PD分离架构下的KV Cache管理,引入显式同步机制,确保写入与回收安全有序。同时,针对HiCache加载时序缺失问题,重构了读取流程,避免未就绪数据被访问。修复后,异常输出率从万分之十几降至万分之三以下。
此外,团队还提出了一种名为LayerSplit的KV Cache分层存储方案,以缓解长上下文任务中Prefill阶段的内存和带宽压力。该方案通过部分存储与广播机制显著降低GPU内存占用,并通过通信与计算重叠隐藏延迟。结合GLM-5.1测试显示,在特定场景下系统吞吐量提升了10%至132%。
智谱总结道,随着AI进入高并发、长上下文的Coding Agent时代,仅靠Scaling Law推动能力增长已不够,还需要强大的系统工程支撑。未来,维护推理基础设施的稳定性和质量将成为关键。
参考链接:
[1] https://z.ai/blog/scaling-pain
[2] https://www.zhipuai.cn/zh/research/159
-
2026-05-01 20:48:28 -
2026-05-01 19:46:19 -
2026-05-01 19:43:14