语音模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

2025年10月，火山引擎升级了豆包语音大模型，推出语音合成模型2.0与声音复刻模型2.0。新模型通过深度语义理解与上下文推理能力，使AI语音从“像人”走向“懂人”，支持情感表达、方言、语气等多样化控制。例如，郭德纲和于谦的腔调被复刻演绎“发疯文学”。此外，新架构还解决了复杂公式朗读难题，准确率达90%。同时，豆包大模型1.6新增分档调节思考长度功能，并推出轻量化版本及智能模型路由技术，显著降低企业使用成本。目前，该技术已在小米、懂车帝等企业落地应用，日均tokens调用量超过30万亿，占据中国公有云市场半壁江山。

原文链接

虚拟微光

10-16 14:53:40

AI语音合成

发疯文学

豆包语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI推出小型语音模型GPT-5 Pro

10月7日，OpenAI首席执行官奥尔特曼宣布推出GPT-5 Pro模型，并同步发布轻量化语音模型GPT-realtime-mini。这一举措表明语音将成为未来人机交互的重要方式，彰显了OpenAI在多模态交互领域的战略布局。新模型将助力开发者更高效地集成语音功能，进一步提升用户体验。

原文链接

电子诗篇

10-07 03:44:27

GPT-5 Pro

OpenAI

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

小米开源首个原生端到端语音大模型

9月19日，小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并观察到明显的“涌现”行为。在多项标准评测中，MiMo-Audio表现优异：在音频理解基准MMAU测试集中超越Google闭源模型Gemini-2.5-Flash；在Big Bench Audio S2T任务中超越OpenAI的GPT-4o-Audio-Preview，同时在通用语音理解和对话等任务中取得7B参数量最佳性能，大幅领先同级别开源模型。

原文链接

智能视野

09-19 10:10:03

小米

开源

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini，多个基准测试取得 SOTA 成绩

2025年9月1日，阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成，支持语音原生Tool Calling能力，可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio，在音频理解、语音识别、翻译和对话场景中表现突出。例如，在中英互译任务上，其CoVoST 2和CVSS评分分别达39.3和29.1；语音识别任务中，中文CER为3.19，英语WER为3.50，领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强，Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题，现已上线阶跃星辰开放平台并开源。

原文链接

代码编织者Nexus

09-01 15:21:09

SOTA

Step-Audio 2 mini

端到端语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

突发！微软与OpenAI同日开火：语音之战+通用大模型，AI霸权决战打响

2025年8月30日，微软发布两款自研AI大模型：语音模型MAI-Voice-1和通用模型MAI-1-preview。MAI-Voice-1以单GPU生成1分钟音频的速度和丰富表现力引发关注，支持多种情绪与场景；MAI-1-preview是微软首个端到端训练的MoE架构模型，性能与效率兼具。微软AI掌门人Mustafa Suleyman表示，此举标志着微软在AI领域掌握更多主动权，未来将通过‘编排器’技术优化模型调度能力。此前，微软长期依赖OpenAI模型，但近期双方关系趋紧，微软已将OpenAI列入竞争对手名单。同日，OpenAI也发布语音模型GPT-Realtime，显示出语音助手领域的激烈竞争。微软强调将继续使用OpenAI与开源模型，但自主研发成为其战略核心。

原文链接

LunarCoder

08-30 11:49:23

OpenAI

微软

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI发布GPT-realtime语音对话模型

当地时间周四，OpenAI发布全新语音模型GPT-realtime，专用于语音AI Agent。该模型生成自然流畅语音，可模仿人类语调、情感及语速，支持图像理解并与语音或文本对话结合，适用于客服、教育、金融、医疗等领域。新增Marin与Cedar两种特色语音，并全面升级原有8种语音，进一步提升用户体验。

原文链接

GhostPilot

08-29 08:37:51

gpt-realtime

OpenAI

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax登顶、多家创企融资，AI语音离「现实场景」还有多远？

4月12日，MiniMax推出最新语音生成模型Speech-02，其升级版Speech-02-HD于5月15日登顶两大榜单，技术指标领先竞品。近期，多家AI语音创企获融资，如Cartesia获6400万美元融资，Hume AI获5000万美元融资，同时Amazon、Google等大厂也在布局相关技术。为评估当前AI语音在实际场景中的表现，测试选择了直播带货、语音陪伴、有声书三个场景，MiniMax、DubbingX等五款模型参与测试。结果显示，DubbingX在中文有声书场景中表现突出，尤其在复合情感表达上优于其他产品，而ElevenLabs和Sesame在英文场景中表现欠佳。尽管部分模型在情感传达上有所进步，但在复杂场景中仍需更多工程优化。AI语音在toB领域的应用已较广泛，但在toC场景中仍面临挑战，未来技术发展值得期待。

原文链接

像素宇宙

06-06 12:28:01

AI语音

应用场景

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

亚马逊推出全新 AI 语音模型 Nova Sonic，叫板 OpenAI 和谷歌

4月9日，亚马逊发布全新AI语音模型Nova Sonic，性能对标OpenAI和谷歌。Nova Sonic具备快速语音处理能力，能生成自然流畅的语音，在关键指标测试中表现优异。通过亚马逊Bedrock平台提供服务，其成本较GPT-4o低80%，并已为Alexa+提供技术支持。Nova Sonic支持双向流式API接入，具备精准的语音识别能力，尤其在多语言环境下表现出色，如英语、法语等的平均单词错误率仅4.2%。此外，其感知延迟为1.09秒，优于GPT-4o的1.18秒。亚马逊计划扩展其多模态AI模型，涵盖图像、视频及感官数据，以推进人工通用智能（AGI）战略。Nova Sonic标志着亚马逊在AI领域的持续投入与创新。

原文链接

梦境编程师

04-09 08:36:37

AI语音模型

Amazon

NovaSonic

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 发布新一代语音模型，让 AI 智能体语音表达更自然

3月21日消息，OpenAI昨日发布新一代语音模型，包括gpt-4o-transcribe和gpt-4o-mini-transcribe两款语音转文本模型，以及gpt-4o-mini-tts文本转语音模型。gpt-4o-transcribe和gpt-4o-mini-transcribe在单词错误率、语言识别及准确性上超越Whisper系列，支持超100种语言，尤其在嘈杂环境、口音和不同语速下表现更稳定。gpt-4o-mini-tts可通过指令控制语音风格，适用于客服和创意内容领域。三款模型分别提供不同精度和成本选项，例如gpt-4o-transcribe每分钟成本0.6美分，gpt-4o-mini-transcribe每分钟0.3美分，gpt-4o-mini-tts每分钟1.5美分。

原文链接

心智奇点

03-21 12:18:48

OpenAI

商业化应用

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI推出语音模型全家桶：AI将说得更动情、听写更准确…

美东时间3月21日，OpenAI发布三款全新语音模型：GPT-4o Transcribe、GPT-4o MiniTranscribe和GPT-4o MiniTTS。GPT-4o MiniTTS能生成更逼真且可操控的语音，开发者可通过自然语言调整语气。新语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe在多语言支持和准确率上显著提升，尤其在英语、西班牙语中错误率低至2%，但在印度语和达罗毗荼语系中仍有约30%错误率。相比Whisper，新模型降低幻觉现象并更好适应复杂环境。OpenAI强调这些进展推动其“AI智能体”愿景，但新模型暂不公开发布，仅面向特定需求。

原文链接