开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

2024-10-24 15:10:53

智能视野

发布在

科普

阅读：1789

开源数字人实时对话Demo现已推出，支持语音输入和实时对话，且数字人形象可自定义。

该Demo已上线阿里巴巴ModelScope魔搭社区，无需预训练即可使用自定义的数字人形象进行实时对话，支持多种数字人形象和音色，对话首包延迟可低至3秒。

该项目采用模块化设计，支持快速更换和扩展，适用于多种场景，如直播、新闻播报和聊天助手等。使用Gradio 5实现流式视频输出，方便部署和快速构建交互式数字人应用。

系统采用流式输出的并行流水线设计，通过将模型的初始化与推理过程分离，提高推理速度。以句子为单位进行处理，确保语音流畅性和唇形同步。

研究人员在单张A100显卡上测试，发现首包延迟主要由各模块耗时构成，后续包延迟均小于0.5秒。最小长度为10个字符，确保流式播放的流畅性。

在线demo：https://www.modelscope.cn/studios/AI-ModelScope/video_chat
README：https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1
创空间体验地址：https://www.modelscope.cn/studios/AI-ModelScope/video_chat
代码仓库：https://github.com/Henry-23/VideoChat

欢迎感兴趣的小伙伴试用在线demo！

原文链接

本文链接：https://kx.umi6.com/article/7812.html

转载请注明文章出处

实时对话