Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格

2025-10-29 16:58:57

AI奇点纪元

发布在

科普

阅读：1714

Soul App AI团队开源了播客语音合成模型SoulX-Podcast，专为多人、多轮对话场景设计，支持中、英、川、粤等多种语言和方言，能够生成自然流畅、角色切换准确、韵律丰富的超长语音对话。该模型不仅适用于播客场景，在通用语音合成与克隆任务中也表现优异。

SoulX-Podcast具备零样本克隆能力，可高度还原参考语音的音色与风格，并根据对话语境灵活调整韵律与节奏，生成带有笑声、清嗓等副语言元素的生动语音。此外，它还支持跨方言音色克隆，即使仅提供普通话参考，也能生成四川话、河南话、粤语等方言语音。

在超长播客生成中，SoulX-Podcast能维持稳定的音色与风格，解决了多轮对话中常见的连贯性问题。其技术基于LLM + Flow Matching范式，语义建模采用Qwen3-1.7B模型，确保语言理解能力与语音生成质量。

Soul团队将语音视为“情感纽带”，在AI+社交领域重点布局智能对话与语音生成技术。此前，平台推出的虚拟人已在群聊派对中展示了强大的交互能力，验证了“虚拟IP + AI语音对话”的潜力。然而，业界在多轮对话与方言支持方面仍有不足，因此Soul决定开源SoulX-Podcast，推动AIGC社区共同探索语音技术的应用前景。

未来，Soul将持续优化语音对话与全双工通话能力，拓展AI语音技术边界，为用户提供更智能、沉浸的交互体验，同时深化开源生态建设，携手全球开发者探索“AI+社交”的更多可能性。

Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

原文链接

本文链接：https://kx.umi6.com/article/27489.html

转载请注明文章出处

SoulX-Podcast