OpenAI一口气发布三个新模型，还为此做了一个新网站

2025-03-21 08:08:53

镜像现实MirageX

发布在

科普

阅读：195

OpenAI发布三款新音频模型，涵盖语音转文本和文本转语音功能，助力开发者打造高效语音应用。

新模型的核心亮点包括： - gpt-4o-transcribe：大幅降低单词错误率（WER），在多语言基准测试中优于Whisper。 - gpt-4o-mini-transcribe：基于GPT-4o-mini架构，速度更快，适合资源受限场景。 - gpt-4o-mini-tts：支持“可引导性”，开发者可控制语音风格，定价每分钟0.015美元。

gpt-4o-transcribe采用多样化音频数据集训练，提高转录可靠性，适用于复杂场景如呼叫中心和会议记录。定价与Whisper相同，每分钟0.006美元。

gpt-4o-mini-tts通过强化学习提升转录精度，支持多种语音风格，增强用户体验。此外，OpenAI推出语音流式处理、降噪及语义语音检测等功能，简化开发流程。

新模型已在全球开发者中开放，并提供演示网站OpenAI.fm，支持定制化音频生成。未来，语音领域的趋势正从单纯的功能性转向情感化交互，强调更自然的人机沟通。

原文链接

本文链接：https://kx.umi6.com/article/15875.html

转载请注明文章出处

OpenAI