1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%

百度推出行业首个基于Cross-Attention的端到端语音语言大模型,大幅提升语音交互的真实性和情感表达,同时大幅降低语音问答场景的调用成本,最高降幅达90%。

该模型通过创新的跨模态架构,将语音识别和语言模型深度融合,显著减少KV cache计算,提升推理效率。具体创新包括:基于Cross-Attention的高效全查询注意力技术(EALLQA),大幅降低计算复杂度;Encoder与语音识别系统融合,减少KV计算;Decoder与语音合成模型结合,实现自然流畅的情感表达。

此外,该模型支持流式逐字合成,字节级输出确保语音合成更贴近人类发音习惯,同时提升交互响应速度。在情感控制方面,该模型可覆盖17种情绪,大幅提升语音交互的真实感。

百度语音首席架构师贾磊强调,这项技术不仅在性能上取得突破,更大幅降低了工业级应用的成本门槛。未来,百度希望将这一技术分享给行业,推动语音技术的广泛应用。

目前,该模型已在L20卡上实现部署,双卡并发支持数百以上语音交互任务。这一成果标志着百度在语音交互领域迈出了重要一步,也为大模型在更多应用场景的普及奠定了基础。

原文链接
本文链接:https://kx.umi6.com/article/16641.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
百度新一代数字人技术 NOVA 预计 10 月开放,曾支撑罗永浩数字人直播间
2025-07-26 12:39:25
百度推出外贸企业AI扶持计划
2025-04-12 18:58:26
百度,来势汹汹
2025-04-26 17:54:11
百度全新搜索引擎入口“AI搜”上线:无广告 结果可靠权威
2025-01-01 14:00:03
国内首个:百度成功点亮昆仑芯三代万卡集群,还将点亮 3 万卡集群
2025-02-05 11:00:31
文心一言全面免费了,深度搜索功能同时上线,第一手实测在此
2025-02-13 16:11:03
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
2025,大厂们的「大模型牌桌」战
2025-01-14 15:18:12
百度公测新推理模型X1:说不上很猛,但起码能力在线
2025-03-16 22:06:13
倒计时两周!百度“文心杯”创业大赛亿元奖金池等你来冲
2025-05-06 17:54:39
微软官宣Windows 11重大升级!获得“对话式”语音输入
2025-10-17 11:14:27
百度增设搜索产品:上线“AI 搜”,通过 @与不同智能体交互
2025-01-01 13:59:00
百度旗下AI芯片昆仑芯支持单机部署DeepSeek满血版大模型
2025-02-20 11:13:16
24小时热文
更多
扫一扫体验小程序