1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
12月11日,智谱发布工业级语音合成系统GLM-TTS,并在Hugging Face和ModelScope平台开源模型权重。该模型仅需3秒语音样本即可克隆音色与说话习惯,适用于教育、电子书、客服等场景,生成自然流畅的语音。其训练数据仅10万小时,远低于行业主流,预训练只需单机4天,成本显著降低。GLM-TTS采用两阶段生成架构和基于GRPO的强化学习方案,在公开评测中达到开源SOTA表现,字符错误率低至0.89%,情感表达领先行业。开发者可通过GitHub、Hugging Face等平台获取资源,或通过开放平台API快速集成。在线体验入口包括audio.z.ai及智谱清言App。
心智奇点
12-11 10:42:18
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问 Qwen3-TTS 语音合成 AI 模型发布:超 49 种音色,支持多种方言
12月10日,阿里通义千问发布Qwen3-TTS语音合成AI模型,支持超49种音色及多种方言。新模型可通过Qwen API访问,提供撒娇搞怪、青梅竹马等角色音色,覆盖不同性别、年龄和地域特征。Qwen3-TTS增强多语种能力,支持中文、英文、日语等10种语言,方言包括闽南语、粤语、四川话等,还原地方口音特色。此外,其韵律和语速调节更自然,拟人化程度逼近真人,性能优于MiniMax、ElevenLabs等同类产品。
小阳哥
12-10 20:05:18
分享至
打开微信扫一扫
内容投诉
生成图片
Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格
Soul App AI团队开源了播客语音合成模型SoulX-Podcast,专为多人、多轮对话场景设计,支持中、英、川、粤等多种语言和方言,能够生成自然流畅、角色切换准确、韵律丰富的超长语音对话。该模型不仅适用于播客场景,在通用语音合成与克隆任务中也表现优异。 SoulX-Podcast具备零样本克...
AI奇点纪元
10-29 16:58:57
分享至
打开微信扫一扫
内容投诉
生成图片
豆包发布语音合成 / 声音复刻等四款大模型:能理解情感、调节音调风格、准确读出公式
10月16日,在武汉举行的FORCE LINK AI创新巡展上,火山引擎发布了四款豆包大模型。其中包括升级版豆包大模型1.6,支持四种思考长度,提升效率并降低成本;全新发布的豆包大模型1.6 lite更轻量且性价比高,性能超越前代。此外,豆包语音合成模型2.0和声音复刻模型2.0具备更强情感表现力与复杂公式朗读能力,准确率达90%,支持语速、情绪等多维度精准调整,满足多样化需求。
虚拟微光
10-16 12:53:38
分享至
打开微信扫一扫
内容投诉
生成图片
小米集团AI实验室发布ZipVoice系列语音合成(TTS)模型
12日,小米集团AI实验室发布ZipVoice系列语音合成(TTS)模型。该系列包括ZipVoice(零样本单说话人语音合成模型)和ZipVoice-Dialog(零样本对话语音合成模型)。ZipVoice通过基于Flow Matching架构解决了现有零样本语音合成模型参数量大、合成速度慢的问题;ZipVoice-Dialog则优化了对话语音合成的稳定性和推理速度瓶颈。这一发布展现了小米在人工智能语音技术领域的创新突破,为行业提供了更高效的语音合成解决方案。
新智燎原
09-12 11:11:52
分享至
打开微信扫一扫
内容投诉
生成图片
脑机接口技术迎来重大突破:可使渐冻症患者重新流畅说话、唱歌
6月14日,加州大学戴维斯分校研发的新型脑机接口系统取得突破性进展。该系统通过在渐冻症患者大脑发音区域植入微电极阵列,实时捕捉神经信号并转化为语音,全程仅需10毫秒,几乎实现即时对话。系统不仅能让患者流畅说话,还能识别唱歌动作并合成旋律。此技术基于患者发病前的语音样本训练出的声音克隆算法,使合成语音高度还原个人特征。研究团队表示,这为脑机接口语音合成带来重要转折,未来有望帮助更多因不同原因丧失语言能力的人重获表达能力。目前,该技术仍在单个病例测试阶段,下一步将扩大适用范围。
灵感Phoenix
06-16 09:05:32
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序