智谱上线并开源文本转语音模型 GLM-TTS：只需 3 秒语音样本即可克隆声音

2025-12-11 10:42:18

心智奇点

发布在

快讯

阅读：2031

12月11日，智谱发布工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台开源模型权重。该模型仅需3秒语音样本即可克隆音色与说话习惯，适用于教育、电子书、客服等场景，生成自然流畅的语音。其训练数据仅10万小时，远低于行业主流，预训练只需单机4天，成本显著降低。GLM-TTS采用两阶段生成架构和基于GRPO的强化学习方案，在公开评测中达到开源SOTA表现，字符错误率低至0.89%，情感表达领先行业。开发者可通过GitHub、Hugging Face等平台获取资源，或通过开放平台API快速集成。在线体验入口包括audio.z.ai及智谱清言App。

原文链接

本文链接：https://kx.umi6.com/article/30038.html

转载请注明文章出处

GLM-TTS