8月25日,微软发布开源文本转语音模型VibeVoice-1.5B,可生成最长90分钟、最多4人对话的自然语音,支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构,结合声学与语义双分词器,通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens,确保长篇对话连贯性,并支持流式生成音频,为实时TTS应用奠定基础。目前仅支持中英双语,暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途,并提醒标明AI生成来源。模型主要面向科研与开发者社区,未来将推出7B版本,支持低延迟交互与更高保真度,拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。
原文链接
本文链接:https://kx.umi6.com/article/24244.html
转载请注明文章出处
相关推荐
换一换
微软 AI 帮你定制年终高情商话术:写总结、谈加薪、不得罪同事
2025-12-10 09:34:15
浮出水面!微软下一代Maia 2芯片或交由英特尔代工
2025-10-20 16:10:19
微软CEO承诺加码欧盟AI投资
2025-12-02 19:37:26
微软与Lambda达成数十亿美元的人工智能基础设施协议
2025-11-04 01:50:36
使用量一直难突破,微软出奇招邀请网红拍短视频为 Copilot“带货”
2025-11-11 12:05:31
微软出奇招:让美国网红带货AI产品 Copilot瞄准年轻消费者
2025-11-10 23:37:34
微软高管誓言:若AI开始威胁人类 将立刻停止相关研发工作
2025-12-12 18:02:05
微软又“懂”了:称Windows用户渴望AI 反遭网友怒怼!
2025-11-28 16:37:28
微软CEO纳德拉:公司或在一年内重启招聘 前提是现有员工掌握与AI协作技能
2025-11-03 17:32:01
微软发布图像生成模型MAI-Image-1
2025-10-14 16:20:54
微软 AI CEO 苏莱曼预言:五年内人人将拥有亲密的专属 AI 伴侣
2026-01-20 23:34:12
微软CEO重用“云计算军师”,全面审视AI时代的商业逻辑
2025-11-21 21:42:46
微软 AI CEO 苏莱曼:未来 5-10 年,一家公司需砸数千亿美元备战 AI 竞赛
2025-12-26 17:55:28
703 文章
562003 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26