1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

智谱揭示“降智”原因:Scaling的隐痛与解决之道

量子位 | 公众号 QbitAI
作者:鹭羽

Scaling即正义?智谱团队却在最新技术博客中坦言,这一过程并非一帆风顺。他们将GLM-5系列模型在高负载下出现的异常现象称为“Scaling Pain”,并详细分享了踩坑经历与解决方案。

自GLM-5发布以来,用户反馈了一些复杂Coding Agent任务中的异常问题,包括乱码、重复生成和生僻字符。然而,这些异常在线下环境中难以复现,给排查带来了巨大挑战。经过数周努力,团队发现问题根源在于高负载下的推理状态管理,特别是KV Cache的竞态冲突和加载时序缺失。

针对乱码和生僻字符问题,团队发现投机采样(Speculative Decoding)指标异常低,表明草稿模型与目标模型的KV缓存不匹配;而复读问题则与损坏的KV缓存导致注意力模式退化有关。基于此,智谱设计了一套在线异常监控策略,通过设置spec_accept_length和spec_accept_rate阈值,主动中止异常生成请求。

为彻底解决问题,团队优化了PD分离架构下的KV Cache管理,引入显式同步机制,确保写入与回收安全有序。同时,针对HiCache加载时序缺失问题,重构了读取流程,避免未就绪数据被访问。修复后,异常输出率从万分之十几降至万分之三以下。

此外,团队还提出了一种名为LayerSplit的KV Cache分层存储方案,以缓解长上下文任务中Prefill阶段的内存和带宽压力。该方案通过部分存储与广播机制显著降低GPU内存占用,并通过通信与计算重叠隐藏延迟。结合GLM-5.1测试显示,在特定场景下系统吞吐量提升了10%至132%。

智谱总结道,随着AI进入高并发、长上下文的Coding Agent时代,仅靠Scaling Law推动能力增长已不够,还需要强大的系统工程支撑。未来,维护推理基础设施的稳定性和质量将成为关键。

参考链接:
[1] https://z.ai/blog/scaling-pain
[2] https://www.zhipuai.cn/zh/research/159

原文链接
本文链接:https://kx.umi6.com/article/35424.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI的Codex登陆亚马逊Bedrock平台
2026-04-29 02:54:02
面壁智能与瑞芯微将联合开发面向智能座舱场景的AI Box产品
2026-05-01 11:28:17
Alphabet CEO:一季度基于生成式人工智能模型产品收入同比增长近800%
2026-04-30 14:28:02
库克终于放下重担,Siri一句「我听不懂」,苹果的AI时代就过去了
2026-04-30 17:38:10
阶跃发布新一代图像编辑生成模型 Step Image Edit 2
2026-04-29 12:24:22
CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定
2026-04-30 11:18:37
我所知道的代季峰:从微软亚研7万次引用,到盛大3亿美金风暴
2026-04-30 19:43:45
全球瞩目!斑陌易行闪耀硅谷,T6 无人车开启商用新纪元
2026-04-29 17:34:47
郑栅洁:推进算力资源规模化、集约化、绿色化、普惠化发展 深化拓展“人工智能+”
2026-05-01 12:30:30
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻
2026-04-29 11:13:21
SpaceX 招股书首次深度曝光,华尔街多空激烈对线
2026-04-30 17:43:03
防止AI滥用声音和形象 泰勒·斯威夫特动用鲜为人知的法律手段
2026-04-28 19:35:42
韩国与卡塔尔官员商讨先进产业投资合作事宜
2026-04-29 15:30:20
24小时热文
更多
扫一扫体验小程序