1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9月8日,B站宣布开源自研语音生成模型IndexTTS-2.0,这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步,适合视频配音等场景,并支持两种生成模式:精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦,用户可独立指定音色和情绪来源,同时引入GPT潜在表示和三阶段训练策略,提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛,允许自然语言描述控制情绪。实验表明,IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开,助力学术研究与产业应用。

原文链接
本文链接:https://kx.umi6.com/article/24924.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
B站开源自研 IndexTTS-2.0:情感可控、时长可控的零样本语音合成 AI 模型
2025-09-09 16:18:36
B站开源IndexTTS-2.0:突破自回归TTS时长与情感控制瓶颈
2025-09-11 10:52:46
罗永浩 Smartisan 细红线 AI 来临?锤子软件(北京)有限公司上海分公司成立
2025-12-19 19:06:30
被指在 AI 训练中滥用盗版书籍,Adobe 面临集体诉讼
2025-12-18 22:08:34
内存涨价背后:AI存储正在「吃掉」手机、PC
2025-12-19 10:43:24
互联网大厂跨越2025:不出海,就出局;乱出海,也出局?
2025-12-18 19:05:08
马斯克“新战书”:xAI最早明年实现AGI 两三年内超越竞争对手!
2025-12-18 20:04:46
韩国科技部长:中国将成比美国更大的AI竞争对手!
2025-12-18 19:09:33
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
火山引擎相关人士回应“豆包比价”是否会提高字节产品权重:不会
2025-12-18 19:08:28
用时 31 个月:ChatGPT 移动端全球累计吸金突破 30 亿美元大关,跑赢 TikTok 与多款流媒体应用
2025-12-19 12:51:08
钉钉启动“D计划”拟推AI硬件新品 类似“豆包手机”
2025-12-19 19:08:39
阿里人士回应“千问全员会标语称‘干死豆包’”:假的
2025-12-19 15:59:00
24小时热文
更多
扫一扫体验小程序