智谱公布“降智”的秘密：Scaling不可避免的痛

2026-05-01 19:43:14

电子诗篇

发布在

科普

阅读：339

智谱揭示“降智”原因：Scaling的隐痛与解决之道

量子位 | 公众号 QbitAI
作者：鹭羽

Scaling即正义？智谱团队却在最新技术博客中坦言，这一过程并非一帆风顺。他们将GLM-5系列模型在高负载下出现的异常现象称为“Scaling Pain”，并详细分享了踩坑经历与解决方案。

自GLM-5发布以来，用户反馈了一些复杂Coding Agent任务中的异常问题，包括乱码、重复生成和生僻字符。然而，这些异常在线下环境中难以复现，给排查带来了巨大挑战。经过数周努力，团队发现问题根源在于高负载下的推理状态管理，特别是KV Cache的竞态冲突和加载时序缺失。

针对乱码和生僻字符问题，团队发现投机采样（Speculative Decoding）指标异常低，表明草稿模型与目标模型的KV缓存不匹配；而复读问题则与损坏的KV缓存导致注意力模式退化有关。基于此，智谱设计了一套在线异常监控策略，通过设置spec_accept_length和spec_accept_rate阈值，主动中止异常生成请求。

为彻底解决问题，团队优化了PD分离架构下的KV Cache管理，引入显式同步机制，确保写入与回收安全有序。同时，针对HiCache加载时序缺失问题，重构了读取流程，避免未就绪数据被访问。修复后，异常输出率从万分之十几降至万分之三以下。

此外，团队还提出了一种名为LayerSplit的KV Cache分层存储方案，以缓解长上下文任务中Prefill阶段的内存和带宽压力。该方案通过部分存储与广播机制显著降低GPU内存占用，并通过通信与计算重叠隐藏延迟。结合GLM-5.1测试显示，在特定场景下系统吞吐量提升了10%至132%。

智谱总结道，随着AI进入高并发、长上下文的Coding Agent时代，仅靠Scaling Law推动能力增长已不够，还需要强大的系统工程支撑。未来，维护推理基础设施的稳定性和质量将成为关键。

参考链接：
[1] https://z.ai/blog/scaling-pain
[2] https://www.zhipuai.cn/zh/research/159

原文链接

本文链接：https://kx.umi6.com/article/35424.html

转载请注明文章出处

Coding Agent