9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据,在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括:证明语音无损压缩预训练可“涌现”跨任务泛化性,并开源完整语音预训练方案,包括Tokenizer、模型结构等。目前,模型已在Huggingface和Github平台开源,参数量达1.2B,支持音频重建和音频转文本任务。
原文链接
本文链接:https://kx.umi6.com/article/25508.html
转载请注明文章出处
相关推荐
换一换
腾讯智能体框架 Youtu-Agent 开源,搭建 Agent 只需两步
2025-09-02 16:34:48
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
昆仑万维发布并开源Matrix-Game 2.0模型
2025-08-12 10:17:03
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
2025-07-26 11:37:17
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
通义万相全新动作生成模型开源
2025-09-19 15:17:03
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
2025-07-26 00:31:49
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
2025-08-24 10:10:55
三家混战,大模型重回2023
2025-08-03 11:35:50
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
2025-09-12 12:10:41
AI 推理性能大提升:华为 UCM 技术开源,系统吞吐猛增 22 倍
2025-11-05 18:16:46
644 文章
356326 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52