GLM-TTS - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

智谱上线并开源文本转语音模型 GLM-TTS：只需 3 秒语音样本即可克隆声音

12月11日，智谱发布工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台开源模型权重。该模型仅需3秒语音样本即可克隆音色与说话习惯，适用于教育、电子书、客服等场景，生成自然流畅的语音。其训练数据仅10万小时，远低于行业主流，预训练只需单机4天，成本显著降低。GLM-TTS采用两阶段生成架构和基于GRPO的强化学习方案，在公开评测中达到开源SOTA表现，字符错误率低至0.89%，情感表达领先行业。开发者可通过GitHub、Hugging Face等平台获取资源，或通过开放平台API快速集成。在线体验入口包括audio.z.ai及智谱清言App。

原文链接