开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟低至3秒
开源数字人实时对话Demo现已推出,支持语音输入和实时对话,且数字人形象可自定义。
数字人实时对话Demo上线
该Demo已上线阿里巴巴ModelScope魔搭社区,无需预训练即可使用自定义的数字人形象进行实时对话,支持多种数字人形象和音色,对话首包延迟可低至3秒。
技术选型
该项目采用模块化设计,支持快速更换和扩展,适用于多种场景,如直播、新闻播报和聊天助手等。使用Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。
各模块技术选型
- 语音识别(ASR):选用FunASR,功能丰富,包括语音识别、语音端点检测、标点恢复等。
- 大语言模型(LLM):选用通义千问,支持单轮和互动对话模式,轻量级模型适用于日常聊天场景。
- 文本转语音(TTS):选用GPT-SoVITS,支持并行推理,提高响应速度。
- 说话人生成(THG):选用MuseTalk,实时性强,唇形同步效果好。
系统架构
系统采用流式输出的并行流水线设计,通过将模型的初始化与推理过程分离,提高推理速度。以句子为单位进行处理,确保语音流畅性和唇形同步。
时延分析
研究人员在单张A100显卡上测试,发现首包延迟主要由各模块耗时构成,后续包延迟均小于0.5秒。最小长度为10个字符,确保流式播放的流畅性。
未来优化方向
- 链路优化:减少包与包之间的延迟。
- 端到端语音聊天:使用OpenAI端到端的实时语音聊天API,缩短响应时间。
- 流式视频播放:提升用户体验。
项目链接
- 在线demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
- README:https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1
- 创空间体验地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
- 代码仓库:https://github.com/Henry-23/VideoChat
欢迎感兴趣的小伙伴试用在线demo!
原文链接
本文链接:https://kx.umi6.com/article/7812.html
转载请注明文章出处
相关推荐
换一换
OpenAI突然更新,GPT-4o推高级语音版,问题秒回答,网友玩疯了
2024-07-31 15:48:13
AI语音输入法 正在偷偷挤走键盘
2025-12-23 00:09:56
阿里云JVS Claw 全面开放 新增语音输入、skill开关等实用功能
2026-03-25 12:24:01
豆包输入法正式上线
2025-11-24 17:10:17
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
买车要多花6000元!车规存储芯片疯涨180%:全被AI抢走了
2026-06-08 19:42:13
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
AI创业者集结!“2026新一代人工智能(深圳)创业创新大赛”正式启动
2026-06-08 18:39:30
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
程序员爆料:Token烧到扛不住 公司全栈AI项目半路夭折
2026-06-03 17:32:02
C盘空间多出来4GB:谷歌服软 Chrome本地AI大模型可禁用、删除了
2026-06-07 15:39:39
微信闷声赚麻了
2026-06-03 17:33:35
全球首个!材科源图发布有机高分子应用智能体
2026-06-04 22:24:57
744 文章
650262 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41