讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

2024-11-14 19:24:41

电子诗篇

发布在

快讯

阅读：1426

11月14日，“讯飞开放平台”宣布讯飞星火多模态交互大模型正式上线。该模型实现了从单一语音交互向音视频流实时多模交互的拓展，新增了“多模态、超拟人和个性化”功能，集成了语音、视觉、数字人交互于一体，支持一键调用。该模型首次应用超拟人数字人技术，数字人的动作、表情能精准匹配语音内容，实现跨模态语义一致性，使情感表达更连贯。同时，该模型支持超拟人极速交互，采用统一神经网络实现语音到语音的端到端建模，能敏锐感知情绪变化并自由调整声音节奏、大小及人设。此外，它还能实现多模态视觉交互，能够理解具体背景场景，通过语音、手势、行为、情绪等综合判断作出回复。用户可通过数字人进行自然语音对话，数字人能识别摄像头中的内容，如物品品牌、品类等。

原文链接

本文链接：https://kx.umi6.com/article/8743.html

转载请注明文章出处

多模态交互