
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
4月12日,MiniMax推出最新语音生成模型Speech-02,其升级版Speech-02-HD于5月15日登顶两大榜单,技术指标领先竞品。近期,多家AI语音创企获融资,如Cartesia获6400万美元融资,Hume AI获5000万美元融资,同时Amazon、Google等大厂也在布局相关技术。为评估当前AI语音在实际场景中的表现,测试选择了直播带货、语音陪伴、有声书三个场景,MiniMax、DubbingX等五款模型参与测试。结果显示,DubbingX在中文有声书场景中表现突出,尤其在复合情感表达上优于其他产品,而ElevenLabs和Sesame在英文场景中表现欠佳。尽管部分模型在情感传达上有所进步,但在复杂场景中仍需更多工程优化。AI语音在toB领域的应用已较广泛,但在toC场景中仍面临挑战,未来技术发展值得期待。
原文链接
4月9日,亚马逊发布全新AI语音模型Nova Sonic,性能对标OpenAI和谷歌。Nova Sonic具备快速语音处理能力,能生成自然流畅的语音,在关键指标测试中表现优异。通过亚马逊Bedrock平台提供服务,其成本较GPT-4o低80%,并已为Alexa+提供技术支持。Nova Sonic支持双向流式API接入,具备精准的语音识别能力,尤其在多语言环境下表现出色,如英语、法语等的平均单词错误率仅4.2%。此外,其感知延迟为1.09秒,优于GPT-4o的1.18秒。亚马逊计划扩展其多模态AI模型,涵盖图像、视频及感官数据,以推进人工通用智能(AGI)战略。Nova Sonic标志着亚马逊在AI领域的持续投入与创新。
原文链接
3月21日消息,OpenAI昨日发布新一代语音模型,包括gpt-4o-transcribe和gpt-4o-mini-transcribe两款语音转文本模型,以及gpt-4o-mini-tts文本转语音模型。gpt-4o-transcribe和gpt-4o-mini-transcribe在单词错误率、语言识别及准确性上超越Whisper系列,支持超100种语言,尤其在嘈杂环境、口音和不同语速下表现更稳定。gpt-4o-mini-tts可通过指令控制语音风格,适用于客服和创意内容领域。三款模型分别提供不同精度和成本选项,例如gpt-4o-transcribe每分钟成本0.6美分,gpt-4o-mini-transcribe每分钟0.3美分,gpt-4o-mini-tts每分钟1.5美分。
原文链接
美东时间3月21日,OpenAI发布三款全新语音模型:GPT-4o Transcribe、GPT-4o MiniTranscribe和GPT-4o MiniTTS。GPT-4o MiniTTS能生成更逼真且可操控的语音,开发者可通过自然语言调整语气。新语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe在多语言支持和准确率上显著提升,尤其在英语、西班牙语中错误率低至2%,但在印度语和达罗毗荼语系中仍有约30%错误率。相比Whisper,新模型降低幻觉现象并更好适应复杂环境。OpenAI强调这些进展推动其“AI智能体”愿景,但新模型暂不公开发布,仅面向特定需求。
原文链接
OpenAI发布三款新音频模型,涵盖语音转文本和文本转语音功能,助力开发者打造高效语音应用。
新模型的核心亮点包括:
- gpt-4o-transcribe:大幅降低单词错误率(WER),在多语言基准测试中优于Whisper。
- gpt-4o-mini-transcribe:基于GPT-4o-mi...
原文链接
标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
市面上许多语音模型虽已实现自然合成,但在音质、韵律及情感表达方面仍有待提升。尤其在小说演播中,需细腻区分旁白与角色、准确传达情感及不同角色间的差异。
传统方法需预先标记对话、情感和角色,而豆包语音模型可实现端到端合成,无需额外标签。为提升小说演...
原文链接
标题:海螺语音与ElevenLabs较量的实力
试想职场中遇到香港客户,需在线解释延误情况。你听到的粤语、英语混用片段,其实是AI配音,使用的是海螺语音工具。今年1月,MiniMax推出升级的T2A-01语音模型,支持17种语言及上百种音色。
测试中,海螺语音在绕口令“施氏食狮史”中表现优异,字词清晰,音调自然。相比之下,ChatTTS字词粘连,ElevenLabs则有“呱呱叫”的问题。海螺语音不仅音质稳定,还支持多种语言及情绪控制。
在多语言合成能力上,海螺语音在相似度、错误率等方面领先ElevenLabs。它能用不同语气和情绪流畅表达九种语言。此外,海螺语音还能精确控制情绪,如从害怕到高兴的转变,满足多样化需求。
海螺语音还提供了超过300种音色选择,用户可自定义调节。这使得海螺语音不仅适用于日常对话,还适用于影视配音等专业场景。
原文链接
正文:10月25日,智谱清言宣布推出GLM-4-Voice端到端情感语音模型,该模型具备理解情感、情绪表达及共鸣的能力,支持多语言和方言,并可即时调节语速。用户可以从即日起在“智谱清言”App上体验这一新技术。GLM-4-Voice的特点包括:情感表达多样,支持高兴、悲伤、生气、害怕等多种情感;可随时调整语速;支持实时打断与灵活输入指令;兼容中英文及多种方言,尤其擅长粤语、重庆话、北京话等;并计划加入视频通话功能。此外,该模型同期对外开源,成为智谱首个开源的端到端多模态模型。代码仓库地址为。
原文链接
微软亚洲研究院前首席研究经理谭旭于8月加入大模型创业公司月之暗面,负责研发端到端语音模型。月之暗面自去年10月起便开始了多模态研究,目前已有约10人团队专注于视频模型的研发,以确保产品更具差异性,发布计划仍在推迟。谭旭曾在微软研究院担任首席研究经理,专攻生成式AI及语音、音频、视频内容生成领域,论文引用量过万,并担任NeurIPS等学术会议的审稿人。谭旭的加入旨在帮助月之暗面开发类似于OpenAI的GPT-4o的语音体验,该技术基于端到端语音技术,具有较低延时和实时互动的特点。相较传统的ASR(自动语音识别)+ LLM(大语言模型)+ TTS(语音合成)方案,端到端技术能显著缩短机器响应时间并支持随时打断,从而提升用户体验。此次人事变动发生在微软亚洲研究院和OpenAI推出创新语音技术之后,显示了当前语音技术领域的激烈竞争。
原文链接
加载更多

暂无内容