2025年8月5日,阿里通义千问团队开源首个图像生成基础模型Qwen-Image。该模型为20B参数的MMDiT模型,在复杂文本渲染和精确图像编辑方面表现突出,支持多行布局、段落级文本生成及细粒度细节呈现,尤其在中文高保真输出上领先现有模型。其在多个公开基准测试中取得SOTA性能,涵盖通用图像生成和图像编辑任务。Qwen-Image支持多种艺术风格生成与专业级编辑功能,如风格迁移、细节增强、文字编辑等。开源地址包括ModelScope、Hugging Face、GitHub等平台,同时提供技术报告与在线Demo。
原文链接
本文链接:https://kx.umi6.com/article/22997.html
转载请注明文章出处
相关推荐
换一换
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
2025-07-03 13:21:28
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
“计算机视觉被GPT-4o终结了”(狗头)
2025-03-29 17:49:47
通义千问开源全新文生图模型Qwen-Image
2025-08-05 07:09:44
Nano Banana 2 突然现身!能画公式解数学题,监控画面都能伪造
2025-11-10 16:25:59
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
2025-04-09 17:59:20
谷歌发布新一代图像生成模型 Nano Banana Pro:基于 Gemini 3 Pro 打造,支持 4K 分辨率与完美文字渲染
2025-11-20 23:48:33
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
打开必应就能生图,微软 Bing Image Creator 免费接入 GPT-4o
2025-08-07 15:51:50
ChatGPT 图像生成功能火爆,OpenAI CEO 称容量问题将导致产品延期
2025-04-02 08:09:59
NeurIPS 2024最佳论文揭晓!北大字节获最佳论文,清华厦大为亚军
2024-12-04 15:37:50
ChatGPT闯入一条危险赛道:新图像生成功能极擅长伪造收据
2025-04-02 15:32:04
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
674 文章
544561 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38