标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演播效果,豆包团队改进了Seed-TTS技术。具体改进包括:
- 数据处理:按章节处理小说音频,确保长文连贯性。
- 特征融合:结合音素、音调、韵律信息与原始文本,提升发音和韵律,保留语义。
- 结构调整:将speech tokenizer改为speaker embedding,使同一发音人在不同角色间更具表现力。
- 上下文增强:加入更多上下文信息,提升模型对更大范围语义的理解能力。
经评测,优化后的豆包模型在小说演播场景下,CMOS评分已达一流主播的90%以上。该模型已应用于番茄小说,合成千部有声书,涵盖多种热门题材。未来,豆包将继续探索前沿科技,提升用户体验。
原文链接
本文链接:https://kx.umi6.com/article/14373.html
转载请注明文章出处
相关推荐
换一换
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025-10-16 14:53:40
AI说书媲美真人!豆包语音大模型升级长上下文理解
2025-02-26 15:35:34
探索机器人“无遥操”,ATEC2025科技精英赛在港收官
2025-12-08 18:41:52
河南“十五五”规划建议:全面实施“人工智能+”行动 建设重点行业领域垂直大模型
2025-12-08 08:15:51
知名数学家辞职投身AI创业:老板是00后华人女生
2025-12-06 11:24:32
英伟达 4B 小模型击败 GPT-5 Pro!单任务成本仅后者 1/36
2025-12-08 16:36:14
快手可灵 O1 主体库上线:只要有多角度参考图就能让 AI“记住”主角
2025-12-06 21:53:19
加快发展新质生产力 上海自动驾驶测试道路总里程超5200公里
2025-12-07 13:29:51
众擎完成 A1+ 轮与 A2 轮融资,机器人 T800 全面启动规模化发售
2025-12-08 16:37:00
端侧AI更安心!天玑9500强大双NPU:实现智能体验与隐私安全兼得
2025-12-08 11:25:48
山东省“十五五”规划建议:推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点
2025-12-08 09:20:01
西北首台量子计算机落地西安
2025-12-07 08:18:21
央视起底 AI 带娃现象,专家称沉迷或阻碍低龄儿童认知发育
2025-12-06 16:37:45
581 文章
342604 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57