9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
原文链接
本文链接:https://kx.umi6.com/article/25677.html
转载请注明文章出处
相关推荐
换一换
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
北京人形机器人创新中心开源Pelican-VL 1.0模型
2025-11-13 21:24:03
京东云开源JoyAgent智能体
2025-07-26 10:36:52
腾讯智能体框架 Youtu-Agent 开源,搭建 Agent 只需两步
2025-09-02 16:34:48
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
AI 推理性能大提升:华为 UCM 技术开源,系统吞吐猛增 22 倍
2025-11-05 18:16:46
通义千问最新AI编程大模型Qwen3-Coder正式开源
2025-07-23 07:45:34
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写
2025-09-24 16:50:21
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
2025-07-30 12:43:45
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
智谱 GLM-4.7-Flash 模型发布并开源,可免费调用
2026-01-20 09:47:20
蚂蚁发布并开源万亿参数思考模型Ring-1T
2025-10-14 17:25:02
625 文章
422594 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34