开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。
原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI 今年推出 GPT - 6?员工否认
2025-10-19 07:43:54
OpenAI做电商,国内谁会跟进?
2025-10-16 16:58:57
巨额采购订单不断,OpenAI“停不下来”
2025-10-14 10:15:04
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
日立与OpenAI建立战略合作伙伴关系
2025-10-21 13:28:29
OpenAI有花不完的钱?AI泡沫让人想起了当年的网络股
2025-10-15 08:31:01
OpenAI“解禁”成人内容,是福是祸?
2025-10-16 14:58:22
OpenAI 的网络浏览器:ChatGPT Atlas 正式发布,能让 AI“替你上网”
2025-10-22 02:34:53
美国法官终止争议性命令:OpenAI 无需无限期保存 ChatGPT 聊天记录
2025-10-12 10:41:09
把成年人当成年人看,OpenAI 奥尔特曼宣布将为 ChatGPT 开放更多限制内容
2025-10-15 04:25:53
OpenAI宣布推出基于ChatGPT技术构建的新型AI网页浏览器ChatGPT Atlas
2025-10-22 03:35:06
OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯
2025-10-21 13:25:09
OpenAI强硬回击马斯克窃密诉讼!xAI被指恶意人肉离职员工
2025-10-04 13:00:54
590 文章
268920 浏览
24小时热文
更多

-
2025-10-23 19:13:44
-
2025-10-23 19:13:38
-
2025-10-23 18:14:34