1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据,在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括:证明语音无损压缩预训练可“涌现”跨任务泛化性,并开源完整语音预训练方案,包括Tokenizer、模型结构等。目前,模型已在Huggingface和Github平台开源,参数量达1.2B,支持音频重建和音频转文本任务。

原文链接
本文链接:https://kx.umi6.com/article/25508.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
美团发布开源 LongCat-Video 视频生成模型,可稳定输出 5 分钟级内容
2025-10-27 11:55:56
三家混战,大模型重回2023
2025-08-03 11:35:50
阿里宣布Qwen3.5开源家族扩容
2026-02-25 12:17:28
AI助手OpenClaw爆火:一个24小时不休息的数字管家
2026-02-01 00:05:18
华为UCM推理记忆管理技术正式开源
2025-11-05 16:17:45
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
2025-09-23 10:12:45
阶跃星辰开源GUI Agent技术和4B GUI Agent模型
2025-12-01 15:15:24
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
英伟达开源Newton引擎与GR00T N1.6模型
2025-09-30 08:28:35
腾讯混元推出并开源“混元图像 3.0”,官方称效果能对标业界头部闭源模型
2025-09-28 12:53:03
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
智谱 GLM-4.7-Flash 模型发布并开源,可免费调用
2026-01-20 09:47:20
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
24小时热文
更多
扫一扫体验小程序