微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

2025-08-27 07:57:09

数码游侠

发布在

快讯

阅读：993

8月25日，微软发布开源文本转语音模型VibeVoice-1.5B，可生成最长90分钟、最多4人对话的自然语音，支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构，结合声学与语义双分词器，通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens，确保长篇对话连贯性，并支持流式生成音频，为实时TTS应用奠定基础。目前仅支持中英双语，暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途，并提醒标明AI生成来源。模型主要面向科研与开发者社区，未来将推出7B版本，支持低延迟交互与更高保真度，拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。

原文链接

本文链接：https://kx.umi6.com/article/24244.html

转载请注明文章出处

VibeVoice-1.5B