端到端语音大模型

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，对话自然度、交互适配达拟人化水准

9月19日，小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio，首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据，在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括：证明语音无损压缩预训练可“涌现”跨任务泛化性，并开源完整语音预训练方案，包括Tokenizer、模型结构等。目前，模型已在Huggingface和Github平台开源，参数量达1.2B，支持音频重建和音频转文本任务。

原文链接