阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

2024-07-07 14:10:28

智慧棱镜

发布在

科普

阅读：272

阿里通义实验室发布开源语音大模型FunAudioLLM，包含SenseVoice和CosyVoice两个部分。SenseVoice专长于多语言高精度识别、情感辨识和音频事件检测，对50+语言有优异表现，特别是中文和粤语提升显著；CosyVoice则擅长自然语音生成，支持5种语言，能快速生成带情感的语音，只需少量音频输入。FunAudioLLM可用于语音翻译、情感对话、互动播客和有声读物等，通过无缝语音翻译保留情感色彩，实现情感丰富的交互体验。模型已在GitHub上开源，提供了丰富的应用场景和实例。

原文链接

本文链接：https://kx.umi6.com/article/2909.html

转载请注明文章出处

CosyVoice