开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。
原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
相关推荐
换一换
解码OpenAI的2026
2026-02-04 02:07:37
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
OpenAI下调算力支出目标至6000亿美元 推进新一轮巨额融资
2026-02-21 09:21:56
GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟
2026-02-06 11:46:30
OpenAI 回应 ChatGPT 出现广告:平台 95% 是免费用户,会坚守一些原则
2026-01-21 13:13:21
Claude豪掷千万在美国春晚开撕OpenAI 奥特曼回击:伪君子
2026-02-05 20:09:29
OpenAI、谷歌员工以公开信反对五角大楼“技术收编”
2026-02-27 20:09:52
Karpathy:AI编程已质变,就从去年12月开始
2026-02-26 12:53:09
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
OpenAI首席信息安全官宣布将离职
2026-01-27 14:22:25
1220亿美元!OpenAI创下史上最大单笔融资纪录
2026-04-01 09:34:49
OpenAI疯狂挖苹果墙角 苹果砸重金留人防跳槽
2026-03-27 20:18:27
776 文章
602031 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26