TTS - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里通义 Qwen3-TTS 家族上新两款 AI 模型：声音不仅能复制，还可以定制

12月24日，阿里通义发布Qwen3-TTS家族两款新模型：音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。前者支持通过自然语言指令精细调控音色、情感等，实现高度定制化声音生成，综合表现优于GPT-4o-mini-tts等竞品；后者可基于3秒音频实现多语种音色克隆，支持10种主流语言，平均词错误率（WER）领先MiniMax等模型。两款模型均具备高表现力拟人化音色与强大文本解析能力，适用于复杂文本处理和多样化场景需求。相关API文档已上线，为开发者提供便捷接入方式。

原文链接

智慧棱镜

12-24 18:54:37

Qwen3-TTS

音色克隆

音色创造

分享至

打开微信扫一扫

内容投诉

生成图片

智谱上线并开源文本转语音模型 GLM-TTS：只需 3 秒语音样本即可克隆声音

12月11日，智谱发布工业级语音合成系统GLM-TTS，并在Hugging Face和ModelScope平台开源模型权重。该模型仅需3秒语音样本即可克隆音色与说话习惯，适用于教育、电子书、客服等场景，生成自然流畅的语音。其训练数据仅10万小时，远低于行业主流，预训练只需单机4天，成本显著降低。GLM-TTS采用两阶段生成架构和基于GRPO的强化学习方案，在公开评测中达到开源SOTA表现，字符错误率低至0.89%，情感表达领先行业。开发者可通过GitHub、Hugging Face等平台获取资源，或通过开放平台API快速集成。在线体验入口包括audio.z.ai及智谱清言App。

原文链接

心智奇点

12-11 10:42:18

GLM-TTS

开源

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问 Qwen3-TTS 语音合成 AI 模型发布：超 49 种音色，支持多种方言

12月10日，阿里通义千问发布Qwen3-TTS语音合成AI模型，支持超49种音色及多种方言。新模型可通过Qwen API访问，提供撒娇搞怪、青梅竹马等角色音色，覆盖不同性别、年龄和地域特征。Qwen3-TTS增强多语种能力，支持中文、英文、日语等10种语言，方言包括闽南语、粤语、四川话等，还原地方口音特色。此外，其韵律和语速调节更自然，拟人化程度逼近真人，性能优于MiniMax、ElevenLabs等同类产品。

原文链接

小阳哥

12-10 20:05:18

Qwen3-TTS

多语种多方言

语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

B站开源IndexTTS-2.0：突破自回归TTS时长与情感控制瓶颈

B站开源IndexTTS-2.0：突破自回归TTS时长与情感控制瓶颈近日，哔哩哔哩（B站）Index团队宣布开源其自主研发的IndexTTS-2.0系统。这一情感可控、时长可调的自回归零样本文本转语音（TTS）技术，被视为零样本TTS迈向实用化的重要里程碑。在语音合成领域，精准的时长控制和自然的...

原文链接

AI幻想空间站

09-11 10:52:46

IndexTTS-2.0

情感控制

自回归TTS

分享至

打开微信扫一扫

内容投诉

生成图片

B站开源自研 IndexTTS-2.0：情感可控、时长可控的零样本语音合成 AI 模型

9月8日，B站宣布开源自研语音生成模型IndexTTS-2.0，这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步，适合视频配音等场景，并支持两种生成模式：精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦，用户可独立指定音色和情绪来源，同时引入GPT潜在表示和三阶段训练策略，提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛，允许自然语言描述控制情绪。实验表明，IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开，助力学术研究与产业应用。

原文链接

DreamCoder

09-09 16:18:36

IndexTTS-2.0

情感与时长控制

零样本语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

标题：7B的DeepSeek反超R1满血版，上海AI Lab新成果新方法使DeepSeek的Qwen数学能力超越R1满血版，7B模型反超671B。上海AI Lab/清华哈工大/北邮团队的研究由齐弼卿和周伯文领导，探讨了Test-Time Scaling (TTS)在不同策略模型、过程奖励模型及问...

原文链接

超频思维站

02-12 12:27:31

DeepSeek

TTS

数学模型

分享至

打开微信扫一扫

内容投诉

生成图片

巨人网络两款“游戏+AI”自研大模型应用首发

在2024年云栖大会上，巨人网络首次推出了两款自研大模型——GiantGPT和BaiLing-TTS。GiantGPT专为游戏领域设计，而BaiLing-TTS则具备行业领先的多普通话方言合成能力。此外，巨人网络还展示了其在AI技术领域的创新，包括巨人摹境和高精度实时交互数字人技术。此次发布标志着巨人网络在“游戏+AI”领域的积极探索与技术创新，展现出公司在数字化转型中的前瞻性和实力。

原文链接