实时语音大模型

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

豆包重磅更新！语音对话“更像人” AI应用端或迎来变革

1月20日，豆包实时语音大模型正式发布，旨在实现端到端语音对话，主要面向中文语境。该模型具备接近真人的语音表达水准，低时延且支持打断对话。在与OpenAI的GPT-4o对比中，豆包模型在语音语气自然度和情绪饱满度方面表现更优，整体满意度评分4.36（满分5分）。豆包模型团队采用端到端框架，融合语音与文本模态，通过预训练和后训练阶段优化，提升了模型的对话能力和安全性。实时语音AI的价值在于提供更真实的交互体验和情感价值，有望推动AI端侧硬件的发展。

原文链接

LunarCoder

01-20 17:22:57

AI情感陪伴

多模态交互

豆包实时语音大模型

分享至

打开微信扫一扫

内容投诉

生成图片

豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

1月20日，豆包官方宣布推出实时语音大模型，并在豆包App新版中全量开放。该模型实现语音理解和生成一体化，提供端到端语音对话，具有低时延、可随时打断等特性，号称在中文对话方面“断崖式领先”。新功能还提升了语音的真实感及情绪表现，包括“喜怒哀乐”等复杂情感。此外，豆包App更新了实时语音通话功能，能自动调整节奏、儿化音、音量等细节，支持方言、英语对话及多角色模仿，甚至部分歌曲演唱。该技术基于端到端框架研发，深度融合语音与文本模态，力求达到“人机难辨”的AI交互效果。

原文链接