文本转语音 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

8月25日，微软发布开源文本转语音模型VibeVoice-1.5B，可生成最长90分钟、最多4人对话的自然语音，支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构，结合声学与语义双分词器，通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens，确保长篇对话连贯性，并支持流式生成音频，为实时TTS应用奠定基础。目前仅支持中英双语，暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途，并提醒标明AI生成来源。模型主要面向科研与开发者社区，未来将推出7B版本，支持低延迟交互与更高保真度，拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。

原文链接

数码游侠

08-27 07:57:09

分享至

打开微信扫一扫

内容投诉

生成图片

AI 语音公司 ElevenLabs 推出独立移动应用：免费用户享 10 分钟文本转语音额度

6月25日，AI语音公司ElevenLabs推出独立移动应用，支持iOS和Android平台。用户可通过该应用输入文本并选择语音模型生成音频，免费用户享有约10分钟的文本转语音额度。应用接入最新v3 alpha模型，支持通过标签控制语音情感表达。此前，用户仅能通过网页版使用该服务。此次发布是ElevenLabs在消费级应用领域的进一步布局，未来计划增加语音转文本及对话式AI功能，并整合基于MCP技术的体验。

原文链接