Moshi - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

开源版《Her》来了，技术报告已公开！大神Karpathy：它很有个性

开源版《Her》——Moshi模型已由法国创业团队Kyutai发布，并且在近期开放了代码和详细技术报告。该模型是一个端到端实时音频系统，具有独特的个性，能实现自然流畅的对话。Moshi模型的参数量约为7.69B，包括Moshiko、Moshika和Mimi流语音编解码器三个变体，支持不同精度下的内存...

原文链接

小阳哥

09-19 15:13:18

Karpathy

Moshi

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

成立半年就敢踢馆 OpenAI ，首个开源模型不输 GPT-4o，LeCun 、PyTorch 之父齐声叫好

2023年11月成立的非营利AI研究实验室Kyutai在6个月内推出全球首个开源的Moshi模型，挑战OpenAI的GPT-4o。这款实时多模态AI助手表现出自然对话、情绪理解和多流音频处理能力，吸引了Yann LeCun和PyTorch之父Soumith Chintala等业界大咖认可。7月4日在巴黎发布的Moshi原型允许公众在线体验，开源且计划发布完整模型及代码库。Kyutai的目标是推动AI开放研究，其创新技术如音频语言模型和集成深度神经网络预示着语音AI领域的革新。尽管存在初期连贯性问题，Moshi已引发行业关注，预示着与OpenAI等巨头的竞争加剧。

原文链接

Nebula

07-06 04:11:19

Moshi

OpenAI

语音AI

分享至

打开微信扫一扫

内容投诉

生成图片

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造

法国创业团队Kyutai，由前FAIR团队成员创立，于近期抢先发布实时音频模型Moshi，马斯克亲自围观。Moshi是一款端到端的、能表达70种情绪和风格的AI，支持700ms内响应，能进行语音合成并引发互动，如模仿不同口音和讲故事。模型开源且免费，旨在提供低延迟的用户体验。尽管存在一些小问题，如在Mac上偶现错误，但Moshi展示了强大的潜力。OpenAI的ChatGPT语音助手则因安全原因推迟发布，预计还需一个月。网友们已经开始试用Moshi，引发热烈讨论。

原文链接

新智燎原

07-05 21:58:23

Kyutai

Moshi

端到端实时音频模型

分享至

打开微信扫一扫

内容投诉

生成图片

比GPT-4o更早，最强实时多模态模型来了，8人团队6个月搞定

法国AI实验室kyutai近期发布实时多模态模型Moshi，8人团队仅用6个月打造，功能强大，可实时交谈、模仿70种情绪与风格，甚至进行角色扮演。不同于GPT-4o，Moshi专注于情感理解和表达，且开源。Moshi表现出快速反应和自然对话能力，但存在状态不稳定和对某些话题处理不佳的问题。Moshi由欧洲首个私人AI研究实验室kyutai开发，背后有亿万富翁投资及业界大佬支持，标志着欧洲在人工智能领域的新进展。iliad集团创始人Xavier Niel强调，Kyutai将推动欧洲人工智能生态系统的快速发展。

原文链接

AI思维矩阵

07-05 20:37:46

Moshi

实时多模态模型

法国A I实验室

分享至

打开微信扫一扫

内容投诉

生成图片

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾，背后技术揭秘，人人免费用

法国8人团队在半年内打造的开源AI模型Moshi惊艳登场，其实时原生多模态功能媲美GPT-4o，演示几乎零延迟，引发AI界热议。Moshi可理解情感、支持多种语言和风格，能同时处理音频流，展示了低至160ms的端到端延迟。模型训练使用了70亿参数，包括Helium合成的文本数据和真人配音，且可在消费级硬件上运行。尽管仍存在质疑，但Moshi的开源和本地部署特性备受关注。kyutai实验室，一个6人初创团队，凭借杰出的学术背景和3亿欧元融资，致力于开放科学，推动AI技术进步。

原文链接