SenseVoice - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper

7月9日，阿里云开源SenseVoice和CosyVoice两款语音基座模型。SenseVoice擅长高精度多语言识别（超50种语言）、情感辨识与音频事件检测，识别效果优于OpenAI Whisper。SenseVoice-Small模型推理速度快，10s音频仅需70ms，且支持微调和便捷部署。CosyVoice则支持多语言、音色控制，在语音生成和跨语言功能上表现出色。

原文链接

AI幻想空间站

07-09 12:30:52

CosyVoice

SenseVoice

阿里云通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里通义实验室发布开源语音大模型FunAudioLLM，包含SenseVoice和CosyVoice两个部分。SenseVoice专长于多语言高精度识别、情感辨识和音频事件检测，对50+语言有优异表现，特别是中文和粤语提升显著；CosyVoice则擅长自然语音生成，支持5种语言，能快速生成带情感的语音，只需少量音频输入。FunAudioLLM可用于语音翻译、情感对话、互动播客和有声读物等，通过无缝语音翻译保留情感色彩，实现情感丰富的交互体验。模型已在GitHub上开源，提供了丰富的应用场景和实例。

原文链接