开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。
原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
相关推荐
换一换
郭明錤:OpenAI进军手机 正与联发科、高通合作开发处理器
2026-04-27 12:10:29
OpenAI计划年底前将员工人数增加近一倍至8000人
2026-03-21 20:42:38
OpenAI 上市前夕管理层大地震!COO转岗 两位高管休假
2026-04-04 17:01:37
全球算力告急!OpenAI豪掷1450亿疯狂囤算力
2026-04-17 18:16:48
OpenAI缩减ChatGPT内置购物功能规划
2026-03-05 10:06:59
OpenAI将收购人工智能安全平台Promptfoo
2026-03-10 08:58:57
OpenAI要求谷歌将ChatGPT列为默认搜索引擎之一
2026-03-23 20:45:43
微软公司:将不再向OpenAI支付收入分成 微软的OpenAI许可现将转为非独家许可
2026-04-27 21:37:38
OpenAI落子新加坡 首设海外人工智能实验室
2026-05-20 15:45:11
OpenAI与AWS达成协议 以竞标美国政府合同
2026-03-17 22:15:04
OpenAI新模型不是GPTX!全新预训练“土豆”曝光,Sora成弃子的原因找到了
2026-04-05 18:01:58
更多银行参与软银的400亿美元银团贷款 助其投资OpenAI
2026-04-30 16:34:37
OpenAI推出药物研发AI模型 挑战谷歌
2026-04-17 05:42:36
806 文章
691228 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08