9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
本文链接:https://kx.umi6.com/article/25677.html
转载请注明文章出处
相关推荐
换一换
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
字节跳动开源其 AI IDE 工具核心组件 Trae-Agent
2025-07-07 08:24:33
Hugging Face 公布 4.5 亿参数开源机器人模型 SmolVLA,消费级硬件设备即可运行
2025-06-09 18:33:05
字节跳动扣子 Coze 宣布开源:采用 Apache 2.0 许可证,支持商用
2025-07-26 15:40:54
华为UCM推理记忆管理技术正式开源
2025-11-05 16:17:45
Coze/Dify/FastGPT/N8N :该如何选择Agent平台?
2025-06-09 10:25:58
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
2025-07-26 11:37:17
腾讯开源混元 3D 2.1 大模型:首个全链路开源工业级 3D 生成大模型,PC 也能“跑”
2025-06-14 07:22:03
美团视频生成模型正式发布并开源
2025-10-27 11:00:45
马斯克宣布Grok-2正式开源 Grok-3也将在大概6个月内开源
2025-08-24 18:18:35
百度正式开源文心大模型 4.5 系列模型
2025-06-30 11:41:55
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
572 文章
350445 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57