情感与时长控制

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

B站开源自研 IndexTTS-2.0：情感可控、时长可控的零样本语音合成 AI 模型

9月8日，B站宣布开源自研语音生成模型IndexTTS-2.0，这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步，适合视频配音等场景，并支持两种生成模式：精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦，用户可独立指定音色和情绪来源，同时引入GPT潜在表示和三阶段训练策略，提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛，允许自然语言描述控制情绪。实验表明，IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开，助力学术研究与产业应用。

原文链接