9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
本文链接:https://kx.umi6.com/article/25677.html
转载请注明文章出处
相关推荐
换一换
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
“会操作手机的 AI”,智谱开源 AI Agent 模型 AutoGLM
2025-12-09 10:29:51
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,对话自然度、交互适配达拟人化水准
2025-09-19 11:13:29
北京人形开源最新VLM模型,推动具身智能再迈关键一步 !
2025-11-14 13:57:27
真如摄影、细至发丝!阿里开源新一代图像生成模型Qwen-Image
2025-12-31 21:40:29
Databricks 呼吁美国 AI 行业拥抱开源:这是中国能够领先的关键因素
2025-11-15 15:55:27
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
2025-09-23 10:12:45
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
2025-08-24 10:10:55
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
X 平台正式开源推荐算法,马斯克称没有其他社交媒体公司这样做
2026-01-20 14:10:44
业界首个,腾讯混元 3D 世界模型正式发布并开源
2025-07-27 11:55:13
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
660 文章
478213 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18