开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。
原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
相关推荐
.png)
换一换
“我申请当OpenAI CEO ,收到了一封拒绝信”
2025-09-02 11:29:43
ChatGPT居然也推出防沉迷模式了
2025-08-06 14:29:46
OpenAI发布GPT-realtime语音对话模型
2025-08-29 08:37:51
奥尔特曼听劝:OpenAI 将提升订阅用户推理配额,恢复 GPT-4o 等旧模型
2025-08-11 07:56:08
史上最大 AI 基建:OpenAI 将豪掷数万亿美元,打造“AI 宇宙工厂”
2025-08-16 17:28:15
OpenAI正在调查ChatGPT无法显示回复的问题
2025-09-03 16:50:01
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
估值升至5000亿美元!OpenAI洽谈出售约60亿美元员工股权
2025-08-16 10:24:15
奥特曼交出ChatGPT指挥棒,女CEO接掌大权
2025-08-23 10:59:41
OpenAI单月营收破10亿美元,CFO坦言仍长期面临算力紧缺
2025-08-21 01:22:02
直播倒计时,OpenAI 最强模型 GPT-5 有望北京时间明日凌晨 1 点发布
2025-08-07 07:44:59
消息称奥尔特曼淡出 OpenAI 日常管理,聚焦“搞钱”和脑机接口
2025-08-23 07:57:25
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025-08-30 11:49:23
531 文章
173439 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24