9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据,在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括:证明语音无损压缩预训练可“涌现”跨任务泛化性,并开源完整语音预训练方案,包括Tokenizer、模型结构等。目前,模型已在Huggingface和Github平台开源,参数量达1.2B,支持音频重建和音频转文本任务。
原文链接
本文链接:https://kx.umi6.com/article/25508.html
转载请注明文章出处
相关推荐
换一换
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……
2025-11-04 12:11:12
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
2025-07-26 00:31:49
小扎改口不开源,Meta股价暴涨12%
2025-08-01 08:56:20
阿里开源视觉理解模型Qwen3-VL
2025-09-24 14:43:41
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
2025-08-12 14:22:32
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,对话自然度、交互适配达拟人化水准
2025-09-19 11:13:29
腾讯智能体框架 Youtu-Agent 开源,搭建 Agent 只需两步
2025-09-02 16:34:48
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
2025-08-24 10:10:55
696 文章
434009 浏览
24小时热文
更多
-
2026-01-23 09:43:53 -
2026-01-23 08:40:41 -
2026-01-23 06:34:26