VibeVoice-1.5B - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

8月25日，微软发布开源文本转语音模型VibeVoice-1.5B，可生成最长90分钟、最多4人对话的自然语音，支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构，结合声学与语义双分词器，通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens，确保长篇对话连贯性，并支持流式生成音频，为实时TTS应用奠定基础。目前仅支持中英双语，暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途，并提醒标明AI生成来源。模型主要面向科研与开发者社区，未来将推出7B版本，支持低延迟交互与更高保真度，拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。

原文链接