开源版《Her》——Moshi模型已由法国创业团队Kyutai发布,并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统,具有独特的个性,能实现自然流畅的对话。Moshi模型的参数量约为7.69B,包括Moshiko、Moshika和Mimi流语音编解码器三个变体,支持不同精度下的内存需求,并能在L4 GPU上实现约200毫秒的延迟。Mimi编解码器则专门设计用于与大型语言模型协同工作,能够处理24kHz音频,并且支持多种预训练模型。 Moshi项目的三个核心组件包括Helium语言模型、Mimi神经音频编解码器和一种新的多流架构。Helium模型采用了增强的RQ-Transformer变体架构,能够在不增加序列长度的情况下,有效地建模语义和声学标记的层次结构。多流建模技术允许Moshi在每个时间步中堆叠用户的tokens和Moshi的音频,以模拟全双工对话的动态,包括重叠、反向通道和中断等。此外,Moshi还引入了“内心独白”技术,通过调整音频和文本标记的延迟,实现流式TTS和ASR功能。 Moshi团队通过大规模音频预训练,创建了20k小时的合成对话数据,用于评估模型在质量、音频语言建模和口语问答方面的能力。评估结果显示,Moshi在性能上优于之前的模型。与此同时,尽管OpenAI的高级语音模式在7月底已面向部分plus用户上线,但至今并未全面开放,引发用户不满。Moshi的发布再次引发了关于开源和创新速度的讨论。有消息称,OpenAI可能在9月24日发布其高级语音模式,让我们拭目以待。
原文链接
本文链接:https://kx.umi6.com/article/6494.html
转载请注明文章出处
相关推荐
换一换
最新测试版 App 代码显示,ChatGPT 未来或引入广告
2025-11-29 23:44:48
最新研究:OpenAI等头部AI企业的安全监管未达到全球标准
2025-12-03 21:44:07
剑指全球最大订阅服务!OpenAI预计:ChatGPT五年内付费用户将达2.2亿
2025-11-26 14:47:40
微软与 OpenAI 账本曝光,AI 巨头们的“分钱”游戏
2025-11-15 15:54:19
OpenAI 推出购物研究工具,ChatGPT 变身更懂你的 AI 购物小助手
2025-11-25 09:44:49
消息称 OpenAI 进军医疗健康领域,探索开发消费级健康工具
2025-11-10 19:27:33
OpenAI宣布与富士康达成合作
2025-11-21 08:09:03
OpenAI 奥尔特曼发布 GPT-5.1 系列:ChatGPT 情商大涨,AI 默认语气变“暖男”
2025-11-13 08:48:23
OpenAI的「红色警报」
2025-12-03 14:21:25
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025-11-30 14:13:24
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
汇丰:预计OpenAI到2030年仍难以盈利
2025-11-27 19:53:15
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
649 文章
367801 浏览
24小时热文
更多
-
2025-12-08 18:41:52 -
2025-12-08 18:40:45 -
2025-12-08 18:40:02