综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月8日,阿里通义正式发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。两款模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,支持文本、图像、视频等多模态输入,在图文检索、视频匹配、视觉问答等任务中表现优异。Qwen3-VL-Embedding通过统一表示学习生成语义向量,实现高效跨模态检索;Qwen3-VL-Reranker则优化重排序,输出精确相关性分数,二者协同构成“两阶段检索流程”。该系列支持超30种语言,性能在MMEB-v2、MMTEB等权威基准测试中领先业界,适合全球化部署。模型已开源,可通过GitHub和魔搭ModelScope获取。
原文链接
12月31日,阿里开源新一代图像生成模型Qwen-Image-2512,大幅提升人物肌肤、发丝细节及复杂文字渲染效果,生成图片堪比真实摄影。该模型支持漫画风格PPT、信息图等复杂图像创作,满足专业设计需求。在AI Arena评测中,Qwen-Image-2512盲测超万轮,位居开源模型榜首,性能超越多个闭源商用模型。新模型显著降低“AI感”,精准还原皮肤纹理、宠物毛发等细节,效果接近实拍。此外,千问图像模型矩阵已全面开源,开发者可通过魔搭社区或阿里云百炼调用,普通用户可在千问APP体验。截至2025年底,阿里开源近400个Qwen模型,全球下载量超7亿,服务超100万家企业客户,稳居中国企业级大模型市场首位。
原文链接
正文:12月31日,阿里通义大模型开源发布Qwen-Image-2512,聚焦三大核心能力提升:更真实的人物质感、更细腻的自然纹理和更复杂的文字渲染。新模型可精准刻画皮肤、发丝及表情,理解语义细节,并细腻呈现水流、苔藓等自然纹理,还能生成多格漫画和技术图表等内容。在AI Arena超1万局用户盲测中,Qwen-Image-2512表现优于其他开源模型,与闭源模型对比亦具竞争力。该模型已全面开源。
原文链接
正文:2025年12月,ViT核心作者、Meta超级智能团队成员Lucas Beyer盛赞中国开源模型Qwen-Image-Layered,称其图像生成能力远超Nano Banana和ChatGPT。该模型基于扩散技术,可将图片分解为多个含透明度信息的RGBA图层,实现精细化编辑,如局部修改、背景替换、主体更换等。相比传统方法,Qwen-Image-Layered避免了递归错误,擅长处理复杂遮挡、半透明及文字场景。模型支持可变层数拆解,满足多样化需求,并已在GitHub开源。网友评价其效果类似开源版Photoshop,令人惊叹。
原文链接
12月26日,阿里通义千问Qwen Code v0.5.0正式发布,标志着从“命令行工具”向“开发生态”的重要升级。新版本支持同时运行四个实例,可分别处理智能问答、实时翻译、原型设计和创意绘图等任务,提升多任务处理能力。新增VSCode插件,用户可在熟悉的开发环境中直接调用Qwen Code对话界面,带来无缝AI编程体验。此外,还推出了TypeScript SDK,方便开发者以编程方式集成其智能能力,未来还将支持Java、Python等语言。官方强调,Qwen Code虽无图形界面,但具备轻量化设计和高度灵活性,能快速访问本地文件并融入各类工作流。
原文链接
12月25日,阿里通义千问宣布开源图像编辑AI模型Qwen-Image-Edit-2511。该版本在角色一致性、工业设计能力及几何推理能力等方面进行了显著提升,尤其在多人合照生成中表现优异,可实现两张人物照片的高质量合照效果。此外,新模型集成了Lora能力,支持打光、多场景应用等特效,并可直接生成辅助线效果,适用于工业产品设计与材质替换等工程场景。Qwen-Image-Edit-2511已在ModelScope和Hugging Face平台开源,为开发者提供强大工具。
原文链接
12月23日,阿里通义Qwen团队发布全新图像编辑模型Qwen-Image-Edit-2511。该模型在前代基础上优化了角色一致性、几何推理能力,并新增LoRA集成,适用于精准图像修改场景。其亮点在于强大的指令遵循能力,用户只需输入自然语言指令(如“将猫换成狗”),即可自动完成复杂编辑,无需掌握专业修图技术。新模型还能高保真融合多人合影,保留光影与纹理一致性,并支持开箱即用的光照增强等功能。此外,其强化的几何推理能力可生成辅助构造线,助力工业设计。此次开源上线为开发者和设计师提供了高效AI工具,进一步推动视觉生成领域发展。
原文链接
12月24日,阿里通义发布Qwen3-TTS家族两款新模型:音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。前者支持通过自然语言指令精细调控音色、情感等,实现高度定制化声音生成,综合表现优于GPT-4o-mini-tts等竞品;后者可基于3秒音频实现多语种音色克隆,支持10种主流语言,平均词错误率(WER)领先MiniMax等模型。两款模型均具备高表现力拟人化音色与强大文本解析能力,适用于复杂文本处理和多样化场景需求。相关API文档已上线,为开发者提供便捷接入方式。
原文链接
12月22日,阿里宣布开源全新图像生成模型Qwen-Image-Layered,首次实现类似Photoshop的图层理解与编辑功能。该模型可将图片分解为多个RGBA图层,确保编辑操作仅作用于目标图层,从而实现‘零漂移’精准编辑,解决AI生成图像一致性难题。通过该模型,用户可完成重新着色、替换对象、修改文字、删除物体、缩放及移动物体等操作,且支持3层或8层分解选择。这一创新加速了大模型在专业设计领域的应用落地。相关技术报告和代码已发布在GitHub、ModelScope及Hugging Face平台,Demo也同步上线供体验。
原文链接
12月22日,阿里开源全新图像生成模型Qwen-Image-Layered,首次实现PS级图层理解与精准编辑。该模型采用自研创新架构,可将图片拆解为多个图层,解决AI生图一致性难题,适用于专业设计领域。通过引入透明度图层的“Alpha通道”和VLD-MMDiT架构,模型能自动补全遮挡背景,提升空间理解能力。训练数据来自海量Photoshop文件,赋予AI专业分层思维。业内人士认为,这一技术将变革创意产业,大幅提升数字内容创作效率。目前,Qwen-Image-Layered已在魔搭社区和HuggingFace开源,支持免费商用。阿里已开源近400个千问模型,全球下载量超7亿次,服务超100万家企业客户。
原文链接
加载更多
暂无内容