标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演播效果,豆包团队改进了Seed-TTS技术。具体改进包括:
- 数据处理:按章节处理小说音频,确保长文连贯性。
- 特征融合:结合音素、音调、韵律信息与原始文本,提升发音和韵律,保留语义。
- 结构调整:将speech tokenizer改为speaker embedding,使同一发音人在不同角色间更具表现力。
- 上下文增强:加入更多上下文信息,提升模型对更大范围语义的理解能力。
经评测,优化后的豆包模型在小说演播场景下,CMOS评分已达一流主播的90%以上。该模型已应用于番茄小说,合成千部有声书,涵盖多种热门题材。未来,豆包将继续探索前沿科技,提升用户体验。
原文链接
本文链接:https://kx.umi6.com/article/14373.html
转载请注明文章出处
相关推荐
.png)
换一换
AI说书媲美真人!豆包语音大模型升级长上下文理解
2025-02-26 15:35:34
华为AI模型运行专利公布
2025-09-05 15:25:04
我的宝藏AI 浏览器被43亿“贱卖”了,这可能是最好的结局
2025-09-05 16:22:38
腾讯大笔资金加码AI 曝一业务关停 相关视频号已被注销 官网显示“当前服务升级维护中”
2025-09-05 12:21:09
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
2025-09-04 19:05:34
巴克莱银行:AI浪潮有望催生千亿美元以上级并购交易
2025-09-04 19:08:00
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
瑞银:中国AI变现取得进展 芯片本土化进程加速
2025-09-04 18:08:20
AI撬动中国经济新范式
2025-09-04 21:07:55
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
OpenAI今年预计通过ChatGPT实现近100亿美元收入
2025-09-06 10:33:35
Waymo将于今年秋季在圣何塞机场测试无人驾驶汽车
2025-09-05 09:16:13
470 文章
160136 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08