综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月24日,阿里通义发布Qwen3-TTS家族两款新模型:音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。前者支持通过自然语言指令精细调控音色、情感等,实现高度定制化声音生成,综合表现优于GPT-4o-mini-tts等竞品;后者可基于3秒音频实现多语种音色克隆,支持10种主流语言,平均词错误率(WER)领先MiniMax等模型。两款模型均具备高表现力拟人化音色与强大文本解析能力,适用于复杂文本处理和多样化场景需求。相关API文档已上线,为开发者提供便捷接入方式。
原文链接
12月15日,阿里通义发布两款‘百聆’语音模型升级版并开源。Fun-CosyVoice3支持3秒录音即可克隆音色,切换9种语言、18种方言及多种情感,首包延迟降低50%,中英混说准确率提升显著。Fun-ASR增强噪声场景识别率达93%,支持31种语言自由混说与歌词识别。两模型均支持本地部署与二次开发,适用于语音助手、直播配音等实时场景。开源地址已公布,供开发者体验与定制化微调。
原文链接
加载更多
暂无内容