开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟低至3秒
开源数字人实时对话Demo现已推出,支持语音输入和实时对话,且数字人形象可自定义。
数字人实时对话Demo上线
该Demo已上线阿里巴巴ModelScope魔搭社区,无需预训练即可使用自定义的数字人形象进行实时对话,支持多种数字人形象和音色,对话首包延迟可低至3秒。
技术选型
该项目采用模块化设计,支持快速更换和扩展,适用于多种场景,如直播、新闻播报和聊天助手等。使用Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。
各模块技术选型
- 语音识别(ASR):选用FunASR,功能丰富,包括语音识别、语音端点检测、标点恢复等。
- 大语言模型(LLM):选用通义千问,支持单轮和互动对话模式,轻量级模型适用于日常聊天场景。
- 文本转语音(TTS):选用GPT-SoVITS,支持并行推理,提高响应速度。
- 说话人生成(THG):选用MuseTalk,实时性强,唇形同步效果好。
系统架构
系统采用流式输出的并行流水线设计,通过将模型的初始化与推理过程分离,提高推理速度。以句子为单位进行处理,确保语音流畅性和唇形同步。
时延分析
研究人员在单张A100显卡上测试,发现首包延迟主要由各模块耗时构成,后续包延迟均小于0.5秒。最小长度为10个字符,确保流式播放的流畅性。
未来优化方向
- 链路优化:减少包与包之间的延迟。
- 端到端语音聊天:使用OpenAI端到端的实时语音聊天API,缩短响应时间。
- 流式视频播放:提升用户体验。
项目链接
- 在线demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
- README:https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1
- 创空间体验地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
- 代码仓库:https://github.com/Henry-23/VideoChat
欢迎感兴趣的小伙伴试用在线demo!
原文链接
本文链接:https://kx.umi6.com/article/7812.html
转载请注明文章出处
相关推荐
换一换
OpenAI突然更新,GPT-4o推高级语音版,问题秒回答,网友玩疯了
2024-07-31 15:48:13
豆包输入法正式上线
2025-11-24 17:10:17
AI语音输入法 正在偷偷挤走键盘
2025-12-23 00:09:56
开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
2024-10-24 15:10:53
亚马逊又将大手笔裁员!AI被指罪魁祸首 高薪行政人员首当其冲
2026-01-23 12:56:24
粤芯半导体年产48万片晶圆生产线启动 总投资252亿元
2026-01-22 22:15:16
国产GPU厂商燧原科技科创板IPO获受理
2026-01-22 19:08:26
小米超级小爱近期更新功能一览公布,含随心修图、AI 文生图、圈屏搜题等
2026-01-21 16:17:25
黄仁勋:AI发展将带来大规模基建投资潮 数据中心建设对建筑、技术工人需求上升
2026-01-22 11:53:27
2026年OpenAI最看好的3个方向
2026-01-21 17:20:17
AWS上调GPU价格,国产云服务或跟进调整
2026-01-23 17:11:08
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
黄仁勋谈AI泡沫:泡沫产生是因为投资规模空前庞大 巨额投资是为了构建AI基础设施
2026-01-22 16:01:49
644 文章
412783 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55