阿里通义实验室发布开源语音大模型FunAudioLLM,包含SenseVoice和CosyVoice两个部分。SenseVoice专长于多语言高精度识别、情感辨识和音频事件检测,对50+语言有优异表现,特别是中文和粤语提升显著;CosyVoice则擅长自然语音生成,支持5种语言,能快速生成带情感的语音,只需少量音频输入。FunAudioLLM可用于语音翻译、情感对话、互动播客和有声读物等,通过无缝语音翻译保留情感色彩,实现情感丰富的交互体验。模型已在GitHub上开源,提供了丰富的应用场景和实例。
原文链接
本文链接:https://kx.umi6.com/article/2909.html
转载请注明文章出处
相关推荐
换一换
阿里云通义千问开源两款语音基座模型,识别效果优于 OpenAI Whisper
2024-07-09 12:30:52
阿里云通义千问开源两款语音基座模型,识别效果优于 OpenAI Whisper
2024-07-09 12:30:52
RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
2026-04-24 14:15:34
行业景气度高位运行 光模块企业扩产忙
2026-04-23 07:55:30
特斯拉CEO马斯克:预计未来AI芯片将严重不足
2026-04-23 11:06:01
多重利好催化 AI硬件开启消费电子新成长周期
2026-04-23 06:53:08
Deepseek官网公布deepseek-v4接口文档
2026-04-24 11:10:00
谷歌云AI使用量达到每分钟160亿Tokens
2026-04-22 21:29:40
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
时隔6个月 英伟达总市值再次突破5万亿美元
2026-04-24 23:41:21
优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化
2026-04-24 20:29:51
特斯拉CFO:今年将豪掷250亿美元 押注AI与机器人
2026-04-23 11:04:57
740 文章
560982 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26