1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格
Soul App AI团队开源了播客语音合成模型SoulX-Podcast,专为多人、多轮对话场景设计,支持中、英、川、粤等多种语言和方言,能够生成自然流畅、角色切换准确、韵律丰富的超长语音对话。该模型不仅适用于播客场景,在通用语音合成与克隆任务中也表现优异。 SoulX-Podcast具备零样本克...
AI奇点纪元
10-29 16:58:57
SoulX-Podcast
多方言
语音合成
分享至
打开微信扫一扫
内容投诉
生成图片
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025年10月,火山引擎升级了豆包语音大模型,推出语音合成模型2.0与声音复刻模型2.0。新模型通过深度语义理解与上下文推理能力,使AI语音从“像人”走向“懂人”,支持情感表达、方言、语气等多样化控制。例如,郭德纲和于谦的腔调被复刻演绎“发疯文学”。此外,新架构还解决了复杂公式朗读难题,准确率达90%。同时,豆包大模型1.6新增分档调节思考长度功能,并推出轻量化版本及智能模型路由技术,显著降低企业使用成本。目前,该技术已在小米、懂车帝等企业落地应用,日均tokens调用量超过30万亿,占据中国公有云市场半壁江山。
虚拟微光
10-16 14:53:40
AI语音合成
发疯文学
豆包语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
豆包发布语音合成 / 声音复刻等四款大模型:能理解情感、调节音调风格、准确读出公式
10月16日,在武汉举行的FORCE LINK AI创新巡展上,火山引擎发布了四款豆包大模型。其中包括升级版豆包大模型1.6,支持四种思考长度,提升效率并降低成本;全新发布的豆包大模型1.6 lite更轻量且性价比高,性能超越前代。此外,豆包语音合成模型2.0和声音复刻模型2.0具备更强情感表现力与复杂公式朗读能力,准确率达90%,支持语速、情绪等多维度精准调整,满足多样化需求。
虚拟微光
10-16 12:53:38
声音复刻
语音合成
豆包大模型
分享至
打开微信扫一扫
内容投诉
生成图片
小米集团AI实验室发布ZipVoice系列语音合成(TTS)模型
12日,小米集团AI实验室发布ZipVoice系列语音合成(TTS)模型。该系列包括ZipVoice(零样本单说话人语音合成模型)和ZipVoice-Dialog(零样本对话语音合成模型)。ZipVoice通过基于Flow Matching架构解决了现有零样本语音合成模型参数量大、合成速度慢的问题;ZipVoice-Dialog则优化了对话语音合成的稳定性和推理速度瓶颈。这一发布展现了小米在人工智能语音技术领域的创新突破,为行业提供了更高效的语音合成解决方案。
新智燎原
09-12 11:11:52
ZipVoice
小米集团
语音合成
分享至
打开微信扫一扫
内容投诉
生成图片
B站开源自研 IndexTTS-2.0:情感可控、时长可控的零样本语音合成 AI 模型
9月8日,B站宣布开源自研语音生成模型IndexTTS-2.0,这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步,适合视频配音等场景,并支持两种生成模式:精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦,用户可独立指定音色和情绪来源,同时引入GPT潜在表示和三阶段训练策略,提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛,允许自然语言描述控制情绪。实验表明,IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开,助力学术研究与产业应用。
DreamCoder
09-09 16:18:36
IndexTTS-2.0
情感与时长控制
零样本语音合成
分享至
打开微信扫一扫
内容投诉
生成图片
科大讯飞语音合成技术升级,声音复刻与超拟人能力实现突破
2024年6月26日,科大讯飞宣布其语音合成技术实现重大升级,推出一句话声音复刻与超拟人合成两大核心能力。该技术通过三阶段层次化语音建模框架,显著提升声音复刻的相似度和准确度,仅需一句录音即可精准还原用户发音特征。此外,超拟人合成技术赋予AI声音“上下文情商”,能根据对话情绪和话题变化实时调整语气,接近真人水平。该技术已应用于智能汽车、教育、医疗等多个领域,如蔚来汽车、天津大学等均采用此技术,推动AI语音在多场景下的深度应用。
智慧棱镜
06-27 17:14:57
声音复刻
科大讯飞
语音合成技术
分享至
打开微信扫一扫
内容投诉
生成图片
脑机接口技术迎来重大突破:可使渐冻症患者重新流畅说话、唱歌
6月14日,加州大学戴维斯分校研发的新型脑机接口系统取得突破性进展。该系统通过在渐冻症患者大脑发音区域植入微电极阵列,实时捕捉神经信号并转化为语音,全程仅需10毫秒,几乎实现即时对话。系统不仅能让患者流畅说话,还能识别唱歌动作并合成旋律。此技术基于患者发病前的语音样本训练出的声音克隆算法,使合成语音高度还原个人特征。研究团队表示,这为脑机接口语音合成带来重要转折,未来有望帮助更多因不同原因丧失语言能力的人重获表达能力。目前,该技术仍在单个病例测试阶段,下一步将扩大适用范围。
灵感Phoenix
06-16 09:05:32
渐冻症
脑机接口
语音合成
分享至
打开微信扫一扫
内容投诉
生成图片
AI说书媲美真人!豆包语音大模型升级长上下文理解
标题:AI说书媲美真人!豆包语音大模型升级长上下文理解 市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。 传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演...
代码编织者
02-26 15:35:34
AI语音合成
豆包语音模型
长上下文理解
分享至
打开微信扫一扫
内容投诉
生成图片
帮村里接通AI就靠它!34个地域超拟人AI智能体上线,背后技术也被我们扒出来了
标题:34个地域超拟人AI智能体助力春节,方言加持让AI更亲民 过年返乡的朋友,借助34个地域特色的超拟人AI智能体,帮助乡亲们感受AI的魅力。这些智能体来自34个省级行政区,能用当地方言交流,提供旅游规划等服务。 春节期间,百度APP搜索“春节智能体”或“AI旅游”即可体验。这些智能体不仅能解答关于工作生活的问题,还能帮助规划旅行,查询景点门票等。 此外,智能体支持语音通话,开启实时字幕,方言识别准确,互动性强。百度的语音大数据挖掘技术和语音合成大模型技术,使得方言语音合成更加自然流畅,降低了研发成本。 百度语音技术团队成立于2010年,已广泛应用于数字人直播、有声小说、车载场景等领域,推动了智能语音技术的发展。未来,百度将继续拓展智能语音技术的应用范围,为用户提供更自然、个性化的交互体验。
AI创想团
01-24 15:44:42
AI智能体
方言语音合成
百度语音技术
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 发布 Realtime API,助力第三方应用集成其语音合成技术
OpenAI于10月1日在旧金山开发者大会上发布Realtime API,此API允许开发者在其应用中集成语音合成技术,提供6种AI语音选项。此创新旨在丰富第三方应用的功能,提升用户体验,适用于客户支持、语言学习、教育等领域。OpenAI展示了应用实例,如一款旅行规划应用能与AI助手交流获取即时回复及地图建议,一款语言学习应用Speak利用Realtime API支持角色扮演,帮助用户练习新语言对话;而Healthify则整合AI教练Ria,提供个性化营养和健身指导,必要时引入人类营养师。此举不仅扩展了AI在日常生活中的应用范围,也为开发者提供了新的集成工具,推动了语音技术的发展与创新。
智慧棱镜
10-09 09:48:44
OpenAI
Realtime API
语音合成技术
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序