小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，对话自然度、交互适配达拟人化水准

2025-09-19 11:13:29

AGI探路者

发布在

快讯

阅读：777

9月19日，小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio，首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据，在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括：证明语音无损压缩预训练可“涌现”跨任务泛化性，并开源完整语音预训练方案，包括Tokenizer、模型结构等。目前，模型已在Huggingface和Github平台开源，参数量达1.2B，支持音频重建和音频转文本任务。

原文链接

本文链接：https://kx.umi6.com/article/25508.html

转载请注明文章出处

Xiaomi-MiMo-Audio