Qwen3-Omni - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写

9月24日，阿里巴巴发布全模态预训练大模型Qwen3-Omni系列。该模型在36个音视频基准测试中，22项达SOTA水平，32项取得开源模型最佳效果，语音识别、音频理解与对话能力媲美Gemini2.5-Pro。Qwen3-Omni支持全模态输入输出，通过多模态混合训练实现“听”“说”“写”能力，预训练采用单模态与跨模态数据结合。其在音频、音视频能力突出的同时，文本与图像性能保持稳定，首次实现业内这一综合训练效果。

原文链接

AI创想团

09-24 16:50:21

Qwen3-Omni

全模态

开源模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义深夜炸场：全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源，文本、图像、音视频全统一

9月23日，阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中，22项达最新水平，支持119种文本语言及多语言语音输入输出，创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具，支持17种音色和10种语言，并优化延迟与音质表现。此外，Qwen-Image-Edit-2509升级版提升图像编辑一致性，新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。

原文链接