综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月9日,阿里云开源SenseVoice和CosyVoice两款语音基座模型。SenseVoice擅长高精度多语言识别(超50种语言)、情感辨识与音频事件检测,识别效果优于OpenAI Whisper。SenseVoice-Small模型推理速度快,10s音频仅需70ms,且支持微调和便捷部署。CosyVoice则支持多语言、音色控制,在语音生成和跨语言功能上表现出色。
原文链接
阿里通义实验室发布开源语音大模型FunAudioLLM,包含SenseVoice和CosyVoice两个部分。SenseVoice专长于多语言高精度识别、情感辨识和音频事件检测,对50+语言有优异表现,特别是中文和粤语提升显著;CosyVoice则擅长自然语音生成,支持5种语言,能快速生成带情感的语音,只需少量音频输入。FunAudioLLM可用于语音翻译、情感对话、互动播客和有声读物等,通过无缝语音翻译保留情感色彩,实现情感丰富的交互体验。模型已在GitHub上开源,提供了丰富的应用场景和实例。
原文链接
加载更多
暂无内容