1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。

原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI被曝将重新调整薪酬以应对Meta挖人
2025-06-30 11:45:11
闭源主力选手拥抱开源?OpenAI 被曝最快下周推开源 AI 模型,o3 mini 级推理能力
2025-07-10 11:22:08
又一华人科学家被挖走,OpenAI人才加速流失
2025-07-12 18:54:36
24小时热文
更多
扫一扫体验小程序