1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Soul App AI团队开源了播客语音合成模型SoulX-Podcast,专为多人、多轮对话场景设计,支持中、英、川、粤等多种语言和方言,能够生成自然流畅、角色切换准确、韵律丰富的超长语音对话。该模型不仅适用于播客场景,在通用语音合成与克隆任务中也表现优异。

SoulX-Podcast具备零样本克隆能力,可高度还原参考语音的音色与风格,并根据对话语境灵活调整韵律与节奏,生成带有笑声、清嗓等副语言元素的生动语音。此外,它还支持跨方言音色克隆,即使仅提供普通话参考,也能生成四川话、河南话、粤语等方言语音。

在超长播客生成中,SoulX-Podcast能维持稳定的音色与风格,解决了多轮对话中常见的连贯性问题。其技术基于LLM + Flow Matching范式,语义建模采用Qwen3-1.7B模型,确保语言理解能力与语音生成质量。

Soul团队将语音视为“情感纽带”,在AI+社交领域重点布局智能对话与语音生成技术。此前,平台推出的虚拟人已在群聊派对中展示了强大的交互能力,验证了“虚拟IP + AI语音对话”的潜力。然而,业界在多轮对话与方言支持方面仍有不足,因此Soul决定开源SoulX-Podcast,推动AIGC社区共同探索语音技术的应用前景。

未来,Soul将持续优化语音对话与全双工通话能力,拓展AI语音技术边界,为用户提供更智能、沉浸的交互体验,同时深化开源生态建设,携手全球开发者探索“AI+社交”的更多可能性。

Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

原文链接
本文链接:https://kx.umi6.com/article/27489.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
脑机接口技术迎来重大突破:可使渐冻症患者重新流畅说话、唱歌
2025-06-16 09:05:32
豆包发布语音合成 / 声音复刻等四款大模型:能理解情感、调节音调风格、准确读出公式
2025-10-16 12:53:38
阿里通义千问 Qwen3-TTS 语音合成 AI 模型发布:超 49 种音色,支持多种方言
2025-12-10 20:05:18
小米集团AI实验室发布ZipVoice系列语音合成(TTS)模型
2025-09-12 11:11:52
Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格
2025-10-29 16:58:57
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
AI泡沫化引发全球担忧情绪:一夜之间美股、金银、比特币、石油全崩了
2026-02-06 10:45:09
亚马逊盘前跌超9% 2000亿美元资本支出计划引发市场担忧
2026-02-06 17:07:18
全国最大国产AI算力池来了:部署超3万卡,上千款应用接入
2026-02-06 19:06:44
美股软件行业市值2026年已蒸发1万亿美元 对冲基金做空狂赚240亿美元
2026-02-05 16:00:33
黄仁勋台北「夜宴」
2026-02-05 02:21:17
Claude豪掷千万在美国春晚开撕OpenAI 奥特曼回击:伪君子
2026-02-05 20:09:29
农业农村部:加强人工智能在农业农村领域应用 拓展无人机、物联网、机器人等应用场景
2026-02-06 08:42:15
24小时热文
更多
扫一扫体验小程序