OpenAI的《Her》至今未能发布,引发了人们对其进展的关注。自从5月14日,OpenAI发布了GPT-4和端到端实时音视频对话模式以来,该技术在模拟人类对话方面展现出令人惊艳的表现,能够感知用户呼吸节奏、丰富语气实时回复,甚至具备打断功能。然而,随着期待值的升高,出现了多次延期的消息。
分析显示,《Her》的开发面临多重挑战。首先,法律纠纷要求确保语音音色避免与特定名人如斯佳丽·约翰逊产生争议。其次,安全问题需加强对齐,防范AI对话被滥用为诈骗工具。除此之外,技术层面也存在一些未解决的问题。例如,发布会现场演示中手机连接了网线,暗示实际发布后可能受限于“固定网络、固定设备、固定物理环境”,难以保证全球用户获得与演示相媲美的体验。此外,演示中存在明显的延迟现象,语音处理完成但视觉部分仍在处理前一帧,这表明实际应用中可能出现网络不稳定或高延迟的情况。
考虑到实际应用的场景,如帮助盲人招车,这类高度依赖低延迟特性的场景对《Her》提出了更高要求。在户外环境中,网络信号不稳定,加上噪声干扰,大模型可能难以准确识别用户语音,影响对话质量。最后,多设备适配也是《Her》需要攻克的难题之一,目前展示的多为新款iPhone Pro,实际发布后如何确保在不同设备上提供一致的体验尚待验证。
解决上述问题的关键在于实时通信(RTC)技术的优化。RTC技术已在直播、视频会议等领域广泛应用,对于AI时代的音视频对话来说,需要进一步优化信号采集、预处理、编码压缩、网络传输、解码还原等流程,以实现低延迟、高质量的对话体验。OpenAI选择了与开源RTC厂商LiveKit合作,后者因其支持AI语音模式而受到广泛关注。除了OpenAI,LiveKit还与Character.ai、ElevenLabs等AI公司合作。在国内市场,多家AI公司正加速研发端到端多模态大模型及AI实时音视频对话应用。当前,通过优化技术手段,国内AI应用已能将对话延迟控制在1秒左右,实现接近实时的流畅对话。未来,随着技术的持续进步,用户有望亲身体验到更为先进、便捷的AI对话服务。
.png)

-
2025-07-20 19:08:20
-
2025-07-20 19:07:11
-
2025-07-20 17:06:49