综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月24日,阿里巴巴发布全模态预训练大模型Qwen3-Omni系列。该模型在36个音视频基准测试中,22项达SOTA水平,32项取得开源模型最佳效果,语音识别、音频理解与对话能力媲美Gemini2.5-Pro。Qwen3-Omni支持全模态输入输出,通过多模态混合训练实现“听”“说”“写”能力,预训练采用单模态与跨模态数据结合。其在音频、音视频能力突出的同时,文本与图像性能保持稳定,首次实现业内这一综合训练效果。
原文链接
9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
加载更多
暂无内容