以下是原文 正文:【智谱开源文生图模型 CogView3-Plus,相关功能已上线智谱清言App】 智谱技术团队于10月14日宣布开源文生图模型CogView3及其增强版CogView3-Plus-3B,这些模型现已集成至“智谱清言”App。CogView3是一个基于级联扩散的文本转图像模型,分为三个阶段:生成低分辨率图像、进行超分辨率处理至1024x1024,最后迭代生成2048x2048高分辨率图像。在实际应用中,CogView3表现出色,人工评估得分超越当前最佳开源文本到图像扩散模型SDXL77.0%,且推理速度仅为SDXL的1/10。而CogView3-Plus在此基础上引入DiT框架,优化了性能,采用Zero-SNR扩散噪声调度和文本-图像联合注意力机制,相较于MMDiT结构,它在保持基本能力的同时,有效降低了训练和推理成本。此外,该模型使用潜在维度为16的VAE。开发者可通过以下链接获取模型:[链接1]、[链接2]、[链接3]。
原文链接
本文链接:https://kx.umi6.com/article/7340.html
转载请注明文章出处
相关推荐
换一换
智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App
2024-10-15 17:49:24
智谱清言 App 视频通话功能面向所有用户限时免费开放:“有了眼睛”的 AI 产品
2024-09-06 17:07:15
美团发布并开源 LongCat-Image 图像生成模型,编辑能力登顶开源 SOTA
2025-12-08 10:19:43
美的“美罗 U”首曝,行业首创六臂轮足式人形机器人
2025-12-07 15:33:32
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
2025-12-08 14:30:13
AI芯片明年6倍增长 百度回应昆仑芯上市计划:不保证会进行
2025-12-07 21:51:01
打工15年,被大厂裁4次了
2025-12-08 11:21:19
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
英伟达AMD难受了!美国欲推动新法案:全面禁止高端AI芯片对华出口
2025-12-08 13:28:50
谷歌 Gemini 网页版更新“我的内容”文件夹,可一键访问生成的 AI 图像
2025-12-08 08:11:29
神秘模型 Grok 4.20 AI 炒股夺冠:只有它赚钱,吊打 Gemini 3 和 GPT-5.1
2025-12-07 16:36:04
578 文章
346781 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30