OpenAI发布三款新音频模型,涵盖语音转文本和文本转语音功能,助力开发者打造高效语音应用。
新模型的核心亮点包括: - gpt-4o-transcribe:大幅降低单词错误率(WER),在多语言基准测试中优于Whisper。 - gpt-4o-mini-transcribe:基于GPT-4o-mini架构,速度更快,适合资源受限场景。 - gpt-4o-mini-tts:支持“可引导性”,开发者可控制语音风格,定价每分钟0.015美元。
gpt-4o-transcribe采用多样化音频数据集训练,提高转录可靠性,适用于复杂场景如呼叫中心和会议记录。定价与Whisper相同,每分钟0.006美元。
gpt-4o-mini-tts通过强化学习提升转录精度,支持多种语音风格,增强用户体验。此外,OpenAI推出语音流式处理、降噪及语义语音检测等功能,简化开发流程。
新模型已在全球开发者中开放,并提供演示网站OpenAI.fm,支持定制化音频生成。未来,语音领域的趋势正从单纯的功能性转向情感化交互,强调更自然的人机沟通。
原文链接
本文链接:https://kx.umi6.com/article/15875.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI再次推迟发布开源模型
2025-07-14 08:16:03
孙正义:预计OpenAI最终将上市
2025-06-27 12:07:06
刚刚,OpenAI找到控制AI善恶的开关
2025-06-19 14:48:23
427 文章
61098 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21