FunAudioLLM - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里通义实验室发布开源语音大模型FunAudioLLM，包含SenseVoice和CosyVoice两个部分。SenseVoice专长于多语言高精度识别、情感辨识和音频事件检测，对50+语言有优异表现，特别是中文和粤语提升显著；CosyVoice则擅长自然语音生成，支持5种语言，能快速生成带情感的语音，只需少量音频输入。FunAudioLLM可用于语音翻译、情感对话、互动播客和有声读物等，通过无缝语音翻译保留情感色彩，实现情感丰富的交互体验。模型已在GitHub上开源，提供了丰富的应用场景和实例。

原文链接