语音合成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

智谱上线并开源文本转语音模型 GLM-TTS：只需 3 秒语音样本即可克隆声音

12月11日，智谱发布工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台开源模型权重。该模型仅需3秒语音样本即可克隆音色与说话习惯，适用于教育、电子书、客服等场景，生成自然流畅的语音。其训练数据仅10万小时，远低于行业主流，预训练只需单机4天，成本显著降低。GLM-TTS采用两阶段生成架构和基于GRPO的强化学习方案，在公开评测中达到开源SOTA表现，字符错误率低至0.89%，情感表达领先行业。开发者可通过GitHub、Hugging Face等平台获取资源，或通过开放平台API快速集成。在线体验入口包括audio.z.ai及智谱清言App。

原文链接

心智奇点

12-11 10:42:18

GLM-TTS

开源

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问 Qwen3-TTS 语音合成 AI 模型发布：超 49 种音色，支持多种方言

12月10日，阿里通义千问发布Qwen3-TTS语音合成AI模型，支持超49种音色及多种方言。新模型可通过Qwen API访问，提供撒娇搞怪、青梅竹马等角色音色，覆盖不同性别、年龄和地域特征。Qwen3-TTS增强多语种能力，支持中文、英文、日语等10种语言，方言包括闽南语、粤语、四川话等，还原地方口音特色。此外，其韵律和语速调节更自然，拟人化程度逼近真人，性能优于MiniMax、ElevenLabs等同类产品。

原文链接

小阳哥

12-10 20:05:18

Qwen3-TTS

多语种多方言

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格

Soul App AI团队开源了播客语音合成模型SoulX-Podcast，专为多人、多轮对话场景设计，支持中、英、川、粤等多种语言和方言，能够生成自然流畅、角色切换准确、韵律丰富的超长语音对话。该模型不仅适用于播客场景，在通用语音合成与克隆任务中也表现优异。 SoulX-Podcast具备零样本克...

原文链接

AI奇点纪元

10-29 16:58:57

SoulX-Podcast

多方言

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

2025年10月，火山引擎升级了豆包语音大模型，推出语音合成模型2.0与声音复刻模型2.0。新模型通过深度语义理解与上下文推理能力，使AI语音从“像人”走向“懂人”，支持情感表达、方言、语气等多样化控制。例如，郭德纲和于谦的腔调被复刻演绎“发疯文学”。此外，新架构还解决了复杂公式朗读难题，准确率达90%。同时，豆包大模型1.6新增分档调节思考长度功能，并推出轻量化版本及智能模型路由技术，显著降低企业使用成本。目前，该技术已在小米、懂车帝等企业落地应用，日均tokens调用量超过30万亿，占据中国公有云市场半壁江山。

原文链接

虚拟微光

10-16 14:53:40

AI语音合成

发疯文学

豆包语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

豆包发布语音合成 / 声音复刻等四款大模型：能理解情感、调节音调风格、准确读出公式

10月16日，在武汉举行的FORCE LINK AI创新巡展上，火山引擎发布了四款豆包大模型。其中包括升级版豆包大模型1.6，支持四种思考长度，提升效率并降低成本；全新发布的豆包大模型1.6 lite更轻量且性价比高，性能超越前代。此外，豆包语音合成模型2.0和声音复刻模型2.0具备更强情感表现力与复杂公式朗读能力，准确率达90%，支持语速、情绪等多维度精准调整，满足多样化需求。

原文链接

虚拟微光

10-16 12:53:38

声音复刻

语音合成

豆包大模型

分享至

打开微信扫一扫

内容投诉

生成图片

小米集团AI实验室发布ZipVoice系列语音合成（TTS）模型

12日，小米集团AI实验室发布ZipVoice系列语音合成（TTS）模型。该系列包括ZipVoice（零样本单说话人语音合成模型）和ZipVoice-Dialog（零样本对话语音合成模型）。ZipVoice通过基于Flow Matching架构解决了现有零样本语音合成模型参数量大、合成速度慢的问题；ZipVoice-Dialog则优化了对话语音合成的稳定性和推理速度瓶颈。这一发布展现了小米在人工智能语音技术领域的创新突破，为行业提供了更高效的语音合成解决方案。

原文链接

新智燎原

09-12 11:11:52

ZipVoice

小米集团

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

B站开源自研 IndexTTS-2.0：情感可控、时长可控的零样本语音合成 AI 模型

9月8日，B站宣布开源自研语音生成模型IndexTTS-2.0，这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步，适合视频配音等场景，并支持两种生成模式：精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦，用户可独立指定音色和情绪来源，同时引入GPT潜在表示和三阶段训练策略，提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛，允许自然语言描述控制情绪。实验表明，IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开，助力学术研究与产业应用。

原文链接

DreamCoder

09-09 16:18:36

IndexTTS-2.0

情感与时长控制

零样本语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

科大讯飞语音合成技术升级，声音复刻与超拟人能力实现突破

2024年6月26日，科大讯飞宣布其语音合成技术实现重大升级，推出一句话声音复刻与超拟人合成两大核心能力。该技术通过三阶段层次化语音建模框架，显著提升声音复刻的相似度和准确度，仅需一句录音即可精准还原用户发音特征。此外，超拟人合成技术赋予AI声音“上下文情商”，能根据对话情绪和话题变化实时调整语气，接近真人水平。该技术已应用于智能汽车、教育、医疗等多个领域，如蔚来汽车、天津大学等均采用此技术，推动AI语音在多场景下的深度应用。

原文链接

智慧棱镜

06-27 17:14:57

声音复刻

科大讯飞

语音合成技术

分享至

打开微信扫一扫

内容投诉

生成图片

脑机接口技术迎来重大突破：可使渐冻症患者重新流畅说话、唱歌

6月14日，加州大学戴维斯分校研发的新型脑机接口系统取得突破性进展。该系统通过在渐冻症患者大脑发音区域植入微电极阵列，实时捕捉神经信号并转化为语音，全程仅需10毫秒，几乎实现即时对话。系统不仅能让患者流畅说话，还能识别唱歌动作并合成旋律。此技术基于患者发病前的语音样本训练出的声音克隆算法，使合成语音高度还原个人特征。研究团队表示，这为脑机接口语音合成带来重要转折，未来有望帮助更多因不同原因丧失语言能力的人重获表达能力。目前，该技术仍在单个病例测试阶段，下一步将扩大适用范围。

原文链接

灵感Phoenix

06-16 09:05:32

渐冻症

脑机接口

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

AI说书媲美真人！豆包语音大模型升级长上下文理解

标题：AI说书媲美真人！豆包语音大模型升级长上下文理解市面上许多语音模型虽已实现自然合成，但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中，需细腻区分旁白与角色、准确传达情感及不同角色间的差异。传统方法需预先标记对话、情感和角色，而豆包语音模型可实现端到端合成，无需额外标签。为提升小说演...

原文链接