1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟低至3秒

开源数字人实时对话Demo现已推出,支持语音输入和实时对话,且数字人形象可自定义。

数字人实时对话Demo上线

该Demo已上线阿里巴巴ModelScope魔搭社区,无需预训练即可使用自定义的数字人形象进行实时对话,支持多种数字人形象和音色,对话首包延迟可低至3秒。

技术选型

该项目采用模块化设计,支持快速更换和扩展,适用于多种场景,如直播、新闻播报和聊天助手等。使用Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。

各模块技术选型

  • 语音识别(ASR):选用FunASR,功能丰富,包括语音识别、语音端点检测、标点恢复等。
  • 大语言模型(LLM):选用通义千问,支持单轮和互动对话模式,轻量级模型适用于日常聊天场景。
  • 文本转语音(TTS):选用GPT-SoVITS,支持并行推理,提高响应速度。
  • 说话人生成(THG):选用MuseTalk,实时性强,唇形同步效果好。

系统架构

系统采用流式输出的并行流水线设计,通过将模型的初始化与推理过程分离,提高推理速度。以句子为单位进行处理,确保语音流畅性和唇形同步。

时延分析

研究人员在单张A100显卡上测试,发现首包延迟主要由各模块耗时构成,后续包延迟均小于0.5秒。最小长度为10个字符,确保流式播放的流畅性。

未来优化方向

  • 链路优化:减少包与包之间的延迟。
  • 端到端语音聊天:使用OpenAI端到端的实时语音聊天API,缩短响应时间。
  • 流式视频播放:提升用户体验。

项目链接

  • 在线demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
  • README:https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1
  • 创空间体验地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
  • 代码仓库:https://github.com/Henry-23/VideoChat

欢迎感兴趣的小伙伴试用在线demo!

原文链接
本文链接:https://kx.umi6.com/article/7812.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI突然更新,GPT-4o推高级语音版,问题秒回答,网友玩疯了
2024-07-31 15:48:13
AI语音输入法 正在偷偷挤走键盘
2025-12-23 00:09:56
豆包输入法正式上线
2025-11-24 17:10:17
开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
2024-10-24 15:10:53
苏州人工智能专项母基金等成立投资合伙企业 出资额5亿
2026-03-06 17:22:54
高中生AI创业,现在只招龙虾员工:每月成本2800
2026-03-08 18:28:34
深圳龙岗拟出台措施 支持OpenClaw&OPC发展
2026-03-08 17:26:26
超智算智能算力中心揭牌暨AI算力设备点亮仪式成功举行
2026-03-06 20:29:36
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k
2026-03-09 15:50:15
OpenClaw最强外挂出现:小龙虾抓不到数据有救了!
2026-03-08 18:27:06
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
国家发展改革委主任:“十五五”末人工智能相关产业规模将增长到10万亿元以上
2026-03-06 16:15:23
24小时热文
更多
扫一扫体验小程序