标题:语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
百度推出行业首个基于Cross-Attention的端到端语音语言大模型,大幅提升语音交互的真实性和情感表达,同时大幅降低语音问答场景的调用成本,最高降幅达90%。
该模型通过创新的跨模态架构,将语音识别和语言模型深度融合,显著减少KV cache计算,提升推理效率。具体创新包括:基于Cross-Attention的高效全查询注意力技术(EALLQA),大幅降低计算复杂度;Encoder与语音识别系统融合,减少KV计算;Decoder与语音合成模型结合,实现自然流畅的情感表达。
此外,该模型支持流式逐字合成,字节级输出确保语音合成更贴近人类发音习惯,同时提升交互响应速度。在情感控制方面,该模型可覆盖17种情绪,大幅提升语音交互的真实感。
百度语音首席架构师贾磊强调,这项技术不仅在性能上取得突破,更大幅降低了工业级应用的成本门槛。未来,百度希望将这一技术分享给行业,推动语音技术的广泛应用。
目前,该模型已在L20卡上实现部署,双卡并发支持数百以上语音交互任务。这一成果标志着百度在语音交互领域迈出了重要一步,也为大模型在更多应用场景的普及奠定了基础。
原文链接
本文链接:https://kx.umi6.com/article/16641.html
转载请注明文章出处
相关推荐
换一换
百度:“罗永浩”同款慧播星高说服力数字人技术向全球开放
2025-11-13 10:57:56
不用写代码:百度全量上线国内首个对话式应用开发平台“秒哒”
2025-03-24 16:10:33
百度发布文心大模型 X1.1 深度思考模型,整体表现超越 DeepSeek R1
2025-09-09 13:14:51
少赚几十亿广告费 百度真和AI拼了
2025-08-22 07:41:23
百度端到端语音语言大模型发布,成本宣称最高降 90%
2025-03-31 17:43:30
AI芯片明年6倍增长 百度回应昆仑芯上市计划:不保证会进行
2025-12-07 21:51:01
文心一言全面免费了,深度搜索功能同时上线,第一手实测在此
2025-02-13 16:11:03
字节和百度竞争升级
2025-05-31 11:02:44
百度公测新推理模型X1:说不上很猛,但起码能力在线
2025-03-16 22:06:13
百度李彦宏:已培养近600万名AI人才 五年内再培养1000万
2025-05-09 18:57:10
李彦宏:百度模型研发重点在有实际应用价值的领域,不必每个方向都领先
2025-05-22 18:36:18
百度启动最大规模顶尖AI人才招聘,岗位招聘同比扩大60%
2025-06-15 02:44:23
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
669 文章
443505 浏览
24小时热文
更多
-
2026-01-23 09:43:53 -
2026-01-23 08:40:41 -
2026-01-23 06:34:26