9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
本文链接:https://kx.umi6.com/article/25677.html
转载请注明文章出处
相关推荐
换一换
用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时
2025-12-25 11:29:48
华为UCM推理记忆管理技术正式开源
2025-11-05 16:17:45
蚂蚁灵波开源具身大模型LingBot-VLA,让机器人“看的更清楚 做的更明白”
2026-01-28 11:08:15
腾讯混元世界模型 1.1 版本发布并开源:单卡即可部署,秒级创造 3D 世界
2025-10-22 18:50:23
AI助手OpenClaw爆火:一个24小时不休息的数字管家
2026-02-01 00:05:18
腾讯混元图像3.0图生图开源,LMArena跻身全球第一梯队,开源最强
2026-01-28 17:26:24
阿里发布三款中型千问3.5新模型,每百万Token低至0.2元
2026-02-25 15:25:53
智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音
2025-12-11 10:42:18
AI 推理性能大提升:华为 UCM 技术开源,系统吞吐猛增 22 倍
2025-11-05 18:16:46
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
2026-02-12 21:45:01
Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……
2025-11-04 12:11:12
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
731 文章
650843 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13