1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟低至3秒

开源数字人实时对话Demo现已推出,支持语音输入和实时对话,且数字人形象可自定义。

数字人实时对话Demo上线

该Demo已上线阿里巴巴ModelScope魔搭社区,无需预训练即可使用自定义的数字人形象进行实时对话,支持多种数字人形象和音色,对话首包延迟可低至3秒。

技术选型

该项目采用模块化设计,支持快速更换和扩展,适用于多种场景,如直播、新闻播报和聊天助手等。使用Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。

各模块技术选型

  • 语音识别(ASR):选用FunASR,功能丰富,包括语音识别、语音端点检测、标点恢复等。
  • 大语言模型(LLM):选用通义千问,支持单轮和互动对话模式,轻量级模型适用于日常聊天场景。
  • 文本转语音(TTS):选用GPT-SoVITS,支持并行推理,提高响应速度。
  • 说话人生成(THG):选用MuseTalk,实时性强,唇形同步效果好。

系统架构

系统采用流式输出的并行流水线设计,通过将模型的初始化与推理过程分离,提高推理速度。以句子为单位进行处理,确保语音流畅性和唇形同步。

时延分析

研究人员在单张A100显卡上测试,发现首包延迟主要由各模块耗时构成,后续包延迟均小于0.5秒。最小长度为10个字符,确保流式播放的流畅性。

未来优化方向

  • 链路优化:减少包与包之间的延迟。
  • 端到端语音聊天:使用OpenAI端到端的实时语音聊天API,缩短响应时间。
  • 流式视频播放:提升用户体验。

项目链接

  • 在线demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
  • README:https://www.modelscope.cn/studios/AI-ModelScope/video_chat/file/view/master?fileName=README.md&status=1
  • 创空间体验地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
  • 代码仓库:https://github.com/Henry-23/VideoChat

欢迎感兴趣的小伙伴试用在线demo!

原文链接
本文链接:https://kx.umi6.com/article/7812.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里云JVS Claw 全面开放 新增语音输入、skill开关等实用功能
2026-03-25 12:24:01
OpenAI突然更新,GPT-4o推高级语音版,问题秒回答,网友玩疯了
2024-07-31 15:48:13
豆包输入法正式上线
2025-11-24 17:10:17
AI语音输入法 正在偷偷挤走键盘
2025-12-23 00:09:56
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
斑马智能接入支付宝AI付车载版 打通AI座舱“支付即服务”
2026-04-24 17:25:23
横店影视:将向“以IP为核心的全链路运营模式”转型升级
2026-04-23 15:14:07
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了
2026-04-23 09:57:38
美团内测万亿级新一代大模型,全程基于国产算力集群训练
2026-04-24 12:12:33
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
SK海力士完成采购项目的招标 涉及250台人工智能服务器
2026-04-23 16:18:31
24小时热文
更多
扫一扫体验小程序