标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演播效果,豆包团队改进了Seed-TTS技术。具体改进包括:
- 数据处理:按章节处理小说音频,确保长文连贯性。
- 特征融合:结合音素、音调、韵律信息与原始文本,提升发音和韵律,保留语义。
- 结构调整:将speech tokenizer改为speaker embedding,使同一发音人在不同角色间更具表现力。
- 上下文增强:加入更多上下文信息,提升模型对更大范围语义的理解能力。
经评测,优化后的豆包模型在小说演播场景下,CMOS评分已达一流主播的90%以上。该模型已应用于番茄小说,合成千部有声书,涵盖多种热门题材。未来,豆包将继续探索前沿科技,提升用户体验。
原文链接
本文链接:https://kx.umi6.com/article/14373.html
转载请注明文章出处
相关推荐
换一换
AI说书媲美真人!豆包语音大模型升级长上下文理解
2025-02-26 15:35:34
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025-10-16 14:53:40
OpenClaw最强外挂出现:小龙虾抓不到数据有救了!
2026-03-08 18:27:06
中信证券:看好Micro LED CPO产业趋势,上游芯片环节有望深度受益
2026-03-09 09:25:49
俄研究机构训练人工智能识别早期乳腺癌
2026-03-07 11:27:53
中国信通院:截至2025年6月我国计算设备智能算力规模达到782 EFlops 同比增长96%
2026-03-06 14:07:35
AI“养龙虾”走红 专家建议:部署OpenClaw关闭不必要的公网访问
2026-03-09 20:09:18
企业微信支持接入OpenClaw,仅需3步即可快速上手
2026-03-09 15:49:05
20岁大学生花10天VibeCoding一个开源项目,获盛大3000万投资
2026-03-08 16:13:04
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
中东一场无人机轰炸 把全球智力干倒退了?
2026-03-08 07:42:40
MiniMax发布“龙虾”新技能:推出Voice Maker语音模型和Music Maker音乐模型
2026-03-09 16:56:53
三星:考虑与多家AI公司建立合作 押注“多AI模型”手机战略
2026-03-09 20:09:26
635 文章
446273 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02