语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

2025-04-02 16:31:19

智能涌动

发布在

科普

阅读：948

标题：语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

百度推出行业首个基于Cross-Attention的端到端语音语言大模型，大幅提升语音交互的真实性和情感表达，同时大幅降低语音问答场景的调用成本，最高降幅达90%。

该模型通过创新的跨模态架构，将语音识别和语言模型深度融合，显著减少KV cache计算，提升推理效率。具体创新包括：基于Cross-Attention的高效全查询注意力技术（EALLQA），大幅降低计算复杂度；Encoder与语音识别系统融合，减少KV计算；Decoder与语音合成模型结合，实现自然流畅的情感表达。

此外，该模型支持流式逐字合成，字节级输出确保语音合成更贴近人类发音习惯，同时提升交互响应速度。在情感控制方面，该模型可覆盖17种情绪，大幅提升语音交互的真实感。

百度语音首席架构师贾磊强调，这项技术不仅在性能上取得突破，更大幅降低了工业级应用的成本门槛。未来，百度希望将这一技术分享给行业，推动语音技术的广泛应用。

目前，该模型已在L20卡上实现部署，双卡并发支持数百以上语音交互任务。这一成果标志着百度在语音交互领域迈出了重要一步，也为大模型在更多应用场景的普及奠定了基础。

原文链接

本文链接：https://kx.umi6.com/article/16641.html

转载请注明文章出处

低成本