标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演播效果,豆包团队改进了Seed-TTS技术。具体改进包括:
- 数据处理:按章节处理小说音频,确保长文连贯性。
- 特征融合:结合音素、音调、韵律信息与原始文本,提升发音和韵律,保留语义。
- 结构调整:将speech tokenizer改为speaker embedding,使同一发音人在不同角色间更具表现力。
- 上下文增强:加入更多上下文信息,提升模型对更大范围语义的理解能力。
经评测,优化后的豆包模型在小说演播场景下,CMOS评分已达一流主播的90%以上。该模型已应用于番茄小说,合成千部有声书,涵盖多种热门题材。未来,豆包将继续探索前沿科技,提升用户体验。
原文链接
本文链接:https://kx.umi6.com/article/14373.html
转载请注明文章出处
相关推荐
换一换
AI说书媲美真人!豆包语音大模型升级长上下文理解
2025-02-26 15:35:34
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025-10-16 14:53:40
美光出样 192GB SOCAMM2 内存模组:容量提升 50%,能效提升 20+%
2025-10-23 15:09:26
越帮越忙?EA 等公司员工称内部正大力推广 AI,实际却让工作更烦琐
2025-10-24 15:42:18
“超级周期”持续演绎 三星和SK海力士将内存价格上调30%
2025-10-23 13:08:10
Reddit 起诉 Perplexity,指控后者未经授权为 AI 抓取和使用数据
2025-10-23 16:09:59
阿里国际AI翻译模型Marco霸榜WMT机器翻译大赛最难赛道,拿下六项冠军
2025-10-23 15:07:52
百镜大战再添把火!阿里夸克AI眼镜即将开启预售
2025-10-23 15:12:35
快手进军AICoding赛道
2025-10-23 16:11:06
OpenAI 视频生成应用 Sora 更新在即:编辑器、安卓版 App、社交功能……
2025-10-24 09:32:35
OpenAI收购由前苹果员工创立的人工智能初创公司
2025-10-24 01:20:07
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
荣耀推出 AI Connect 平台,发布八大 AI 场景化生态解决方案
2025-10-23 17:12:06
526 文章
247537 浏览
24小时热文
更多
-
2025-10-24 19:49:44 -
2025-10-24 18:49:31 -
2025-10-24 18:49:20