8月25日,微软发布开源文本转语音模型VibeVoice-1.5B,可生成最长90分钟、最多4人对话的自然语音,支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构,结合声学与语义双分词器,通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens,确保长篇对话连贯性,并支持流式生成音频,为实时TTS应用奠定基础。目前仅支持中英双语,暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途,并提醒标明AI生成来源。模型主要面向科研与开发者社区,未来将推出7B版本,支持低延迟交互与更高保真度,拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。
原文链接
本文链接:https://kx.umi6.com/article/24244.html
转载请注明文章出处
相关推荐
换一换
微软又“懂”了:称Windows用户渴望AI 反遭网友怒怼!
2025-11-28 16:37:28
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025-08-30 11:49:23
微软CEO纳德拉向负责人施压 要求加快Copilot改进
2025-12-22 22:06:18
微软否认下调 AI 销售指标,增长目标≠销售配额
2025-12-05 10:18:06
微软宣布其首个自研图像生成模型 MAI-Image-1 已整合入 Bing 与 Copilot,逐步减少对 OpenAI 的依赖
2025-11-05 09:58:04
使用量一直难突破,微软出奇招邀请网红拍短视频为 Copilot“带货”
2025-11-11 12:05:31
微软官宣Windows 11全新AI升级
2025-10-17 09:12:15
微软发布图像生成模型MAI-Image-1
2025-10-14 16:20:54
微软 Copilot 新增音频表达式功能,莎士比亚腔、体育解说都能整
2025-09-11 23:03:58
英伟达和微软将向投资人工智能初创公司Anthropic合计投资至多150亿美元
2025-11-18 23:46:41
奥特曼纳德拉同台回应一切:合作细节、OpenAI未来路线曝光
2025-11-02 18:36:32
微软Office 365将接入Anthropic AI技术 不再依赖OpenAI
2025-09-10 12:36:58
微软打包收购OpenAI?就差一点!
2026-01-21 17:19:03
625 文章
423314 浏览
24小时热文
更多
-
2026-01-23 20:15:45 -
2026-01-23 20:14:36 -
2026-01-23 20:13:28