1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI的《Her》至今未能发布,引发了人们对其进展的关注。自从5月14日,OpenAI发布了GPT-4和端到端实时音视频对话模式以来,该技术在模拟人类对话方面展现出令人惊艳的表现,能够感知用户呼吸节奏、丰富语气实时回复,甚至具备打断功能。然而,随着期待值的升高,出现了多次延期的消息。

分析显示,《Her》的开发面临多重挑战。首先,法律纠纷要求确保语音音色避免与特定名人如斯佳丽·约翰逊产生争议。其次,安全问题需加强对齐,防范AI对话被滥用为诈骗工具。除此之外,技术层面也存在一些未解决的问题。例如,发布会现场演示中手机连接了网线,暗示实际发布后可能受限于“固定网络、固定设备、固定物理环境”,难以保证全球用户获得与演示相媲美的体验。此外,演示中存在明显的延迟现象,语音处理完成但视觉部分仍在处理前一帧,这表明实际应用中可能出现网络不稳定或高延迟的情况。

考虑到实际应用的场景,如帮助盲人招车,这类高度依赖低延迟特性的场景对《Her》提出了更高要求。在户外环境中,网络信号不稳定,加上噪声干扰,大模型可能难以准确识别用户语音,影响对话质量。最后,多设备适配也是《Her》需要攻克的难题之一,目前展示的多为新款iPhone Pro,实际发布后如何确保在不同设备上提供一致的体验尚待验证。

解决上述问题的关键在于实时通信(RTC)技术的优化。RTC技术已在直播、视频会议等领域广泛应用,对于AI时代的音视频对话来说,需要进一步优化信号采集、预处理、编码压缩、网络传输、解码还原等流程,以实现低延迟、高质量的对话体验。OpenAI选择了与开源RTC厂商LiveKit合作,后者因其支持AI语音模式而受到广泛关注。除了OpenAI,LiveKit还与Character.ai、ElevenLabs等AI公司合作。在国内市场,多家AI公司正加速研发端到端多模态大模型及AI实时音视频对话应用。当前,通过优化技术手段,国内AI应用已能将对话延迟控制在1秒左右,实现接近实时的流畅对话。未来,随着技术的持续进步,用户有望亲身体验到更为先进、便捷的AI对话服务。

原文链接
本文链接:https://kx.umi6.com/article/4102.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
三名Meta新聘AI研究员相继离职
2025-08-27 20:10:25
GPT-5来了,人人免费可用
2025-08-08 08:08:39
OpenAI单月营收破10亿美元,CFO坦言仍长期面临算力紧缺
2025-08-21 01:22:02
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
2025-09-05 10:16:42
天才少年背刺马斯克,疑窃取代码“叛逃”OpenAI?
2025-09-01 12:16:43
OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
2025-08-06 15:38:28
硅谷又一个“活久见”:马斯克竟曾邀请扎克伯格参与收购OpenAI
2025-08-22 15:51:25
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌
2025-08-12 11:19:59
奥特曼警惕泡沫,但OpenAI或许是最大泡沫
2025-08-25 12:26:54
OpenAI夺金IOI,但输给3位中国高中生
2025-08-12 10:13:40
xAI代码库被盗,马斯克怒了
2025-08-31 15:03:50
Anthropic:OpenAI 模型易被“滥用”,GPT 竟能提供炸药配方
2025-08-30 16:52:06
24小时热文
更多
扫一扫体验小程序