开源版《Her》来了，技术报告已公开！大神Karpathy：它很有个性

2024-09-19 15:13:18

小阳哥

发布在

快讯

阅读：823

开源版《Her》——Moshi模型已由法国创业团队Kyutai发布，并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统，具有独特的个性，能实现自然流畅的对话。Moshi模型的参数量约为7.69B，包括Moshiko、Moshika和Mimi流语音编解码器三个变体，支持不同精度下的内存需求，并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作，能够处理24kHz音频，并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构，能够在不增加序列长度的情况下，有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频，以模拟全双工对话的动态，包括重叠、反向通道和中断等。此外，Moshi还引入了“内心独白”技术，通过调整音频和文本标记的延迟，实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练，创建了20k小时的合成对话数据，用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示，Moshi在性能上优于之前的模型。与此同时，尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线，但至今并未全面开放，引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称，OpenAI可能在9月24日发布其高级语音模式，让我们拭目以待。

原文链接

本文链接：https://kx.umi6.com/article/6494.html

转载请注明文章出处

Karpathy