智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

2024-10-15 17:49:24

QuantumHacker

发布在

快讯

阅读：625

以下是原文正文：【智谱开源文生图模型 CogView3-Plus，相关功能已上线智谱清言App】智谱技术团队于10月14日宣布开源文生图模型CogView3及其增强版CogView3-Plus-3B，这些模型现已集成至“智谱清言”App。CogView3是一个基于级联扩散的文本转图像模型，分为三个阶段：生成低分辨率图像、进行超分辨率处理至1024x1024，最后迭代生成2048x2048高分辨率图像。在实际应用中，CogView3表现出色，人工评估得分超越当前最佳开源文本到图像扩散模型SDXL77.0%，且推理速度仅为SDXL的1/10。而CogView3-Plus在此基础上引入DiT框架，优化了性能，采用Zero-SNR扩散噪声调度和文本-图像联合注意力机制，相较于MMDiT结构，它在保持基本能力的同时，有效降低了训练和推理成本。此外，该模型使用潜在维度为16的VAE。开发者可通过以下链接获取模型：[链接1]、[链接2]、[链接3]。

原文链接

本文链接：https://kx.umi6.com/article/7340.html

转载请注明文章出处

CogView3-Plus