标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演播效果,豆包团队改进了Seed-TTS技术。具体改进包括:
- 数据处理:按章节处理小说音频,确保长文连贯性。
- 特征融合:结合音素、音调、韵律信息与原始文本,提升发音和韵律,保留语义。
- 结构调整:将speech tokenizer改为speaker embedding,使同一发音人在不同角色间更具表现力。
- 上下文增强:加入更多上下文信息,提升模型对更大范围语义的理解能力。
经评测,优化后的豆包模型在小说演播场景下,CMOS评分已达一流主播的90%以上。该模型已应用于番茄小说,合成千部有声书,涵盖多种热门题材。未来,豆包将继续探索前沿科技,提升用户体验。
原文链接
本文链接:https://kx.umi6.com/article/14373.html
转载请注明文章出处
相关推荐
换一换
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025-10-16 14:53:40
AI说书媲美真人!豆包语音大模型升级长上下文理解
2025-02-26 15:35:34
Anthropic下调其利润率预期
2026-01-22 11:52:20
中信建投:2026年金价或弱于2025年 值得期待的是铜
2026-01-22 08:45:48
文心 App 要做社交了?百度内部人士:没有考虑取代微信
2026-01-21 16:18:23
俄罗斯9层楼高暴雪视频引争议 当地留学生:是AI合成的假雪
2026-01-21 20:26:51
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
苹果首款AI穿戴设备最早可能在2027年发布
2026-01-22 18:06:16
大学开始用AI招生了
2026-01-22 15:58:41
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
广东:保障算力算法与网络供给 鼓励在重点路段、桥隧、港口及枢纽场站部署边缘计算节点
2026-01-21 16:20:44
星凡星启:首个国产卫星算力模组落地
2026-01-23 10:51:27
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
614 文章
405005 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55