OpenAI的《Her》难产，是被什么困住了手脚？

2024-07-27 15:59:54

GhostPilot

发布在

科普

阅读：433

OpenAI的《Her》至今未能发布，引发了人们对其进展的关注。自从5月14日，OpenAI发布了GPT-4和端到端实时音视频对话模式以来，该技术在模拟人类对话方面展现出令人惊艳的表现，能够感知用户呼吸节奏、丰富语气实时回复，甚至具备打断功能。然而，随着期待值的升高，出现了多次延期的消息。

分析显示，《Her》的开发面临多重挑战。首先，法律纠纷要求确保语音音色避免与特定名人如斯佳丽·约翰逊产生争议。其次，安全问题需加强对齐，防范AI对话被滥用为诈骗工具。除此之外，技术层面也存在一些未解决的问题。例如，发布会现场演示中手机连接了网线，暗示实际发布后可能受限于“固定网络、固定设备、固定物理环境”，难以保证全球用户获得与演示相媲美的体验。此外，演示中存在明显的延迟现象，语音处理完成但视觉部分仍在处理前一帧，这表明实际应用中可能出现网络不稳定或高延迟的情况。

考虑到实际应用的场景，如帮助盲人招车，这类高度依赖低延迟特性的场景对《Her》提出了更高要求。在户外环境中，网络信号不稳定，加上噪声干扰，大模型可能难以准确识别用户语音，影响对话质量。最后，多设备适配也是《Her》需要攻克的难题之一，目前展示的多为新款iPhone Pro，实际发布后如何确保在不同设备上提供一致的体验尚待验证。

解决上述问题的关键在于实时通信（RTC）技术的优化。RTC技术已在直播、视频会议等领域广泛应用，对于AI时代的音视频对话来说，需要进一步优化信号采集、预处理、编码压缩、网络传输、解码还原等流程，以实现低延迟、高质量的对话体验。OpenAI选择了与开源RTC厂商LiveKit合作，后者因其支持AI语音模式而受到广泛关注。除了OpenAI，LiveKit还与Character.ai、ElevenLabs等AI公司合作。在国内市场，多家AI公司正加速研发端到端多模态大模型及AI实时音视频对话应用。当前，通过优化技术手段，国内AI应用已能将对话延迟控制在1秒左右，实现接近实时的流畅对话。未来，随着技术的持续进步，用户有望亲身体验到更为先进、便捷的AI对话服务。

原文链接

本文链接：https://kx.umi6.com/article/4102.html

转载请注明文章出处

OpenAI