综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月25日,微软发布开源文本转语音模型VibeVoice-1.5B,可生成最长90分钟、最多4人对话的自然语音,支持跨语言和歌声合成。该模型基于1.5B参数的Qwen2.5架构,结合声学与语义双分词器,通过扩散解码器提升音质表现。其训练上下文长度扩展至65k Tokens,确保长篇对话连贯性,并支持流式生成音频,为实时TTS应用奠定基础。目前仅支持中英双语,暂不支持语音重叠或背景音效。微软强调禁止用于声音冒充、虚假信息传播等非法用途,并提醒标明AI生成来源。模型主要面向科研与开发者社区,未来将推出7B版本,支持低延迟交互与更高保真度,拓展更多应用场景。参考资源已发布在Hugging Face和GitHub平台。
原文链接
6月25日,AI语音公司ElevenLabs推出独立移动应用,支持iOS和Android平台。用户可通过该应用输入文本并选择语音模型生成音频,免费用户享有约10分钟的文本转语音额度。应用接入最新v3 alpha模型,支持通过标签控制语音情感表达。此前,用户仅能通过网页版使用该服务。此次发布是ElevenLabs在消费级应用领域的进一步布局,未来计划增加语音转文本及对话式AI功能,并整合基于MCP技术的体验。
原文链接
加载更多
暂无内容