小米开源首个原生端到端语音大模型

2025-09-19 10:10:03

小米开源首个原生端到端语音大模型

智能视野

发布在

快讯

阅读：804

9月19日，小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并观察到明显的“涌现”行为。在多项标准评测中，MiMo-Audio表现优异：在音频理解基准MMAU测试集中超越Google闭源模型Gemini-2.5-Flash；在Big Bench Audio S2T任务中超越OpenAI的GPT-4o-Audio-Preview，同时在通用语音理解和对话等任务中取得7B参数量最佳性能，大幅领先同级别开源模型。

原文链接

本文链接：https://kx.umi6.com/article/25501.html

转载请注明文章出处

小米