
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月25日,微软发布开源文本转语音模型VibeVoice-1.5B,可生成最长90分钟、最多4人对话的自然语音,支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构,结合声学与语义双分词器,通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens,确保长篇对话连贯性,并支持流式生成音频,为实时TTS应用奠定基础。目前仅支持中英双语,暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途,并提醒标明AI生成来源。模型主要面向科研与开发者社区,未来将推出7B版本,支持低延迟交互与更高保真度,拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。
原文链接
加载更多

暂无内容