综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
AI绘画常因“画不对”让创作者头疼。腾讯混元团队开源的PromptEnhancer框架,通过“思维链(CoT)提示重写”,在无需修改预训练文本到图像(T2I)模型权重的情况下,大幅提升AI对复杂指令的理解能力,尤其在抽象关系、数值...
原文链接
正文:9月9日,腾讯宣布混元图像模型2.1正式开源,支持原生2K图像生成及中英文输入。新版本引入PromptEnhancer文本改写模型,可自动补全和优化输入描述,实现精准语义表达,同时支持中英文双向转换。模型具备1k tokens的超长prompt处理能力,擅长复杂场景生成与多主体描述,显著减少文字错误与理解偏差。新增双通道文本编码器、两阶段模型架构等技术亮点,大幅提升生成效率与图像质感。此外,通过高压缩率VAE和meanflow推理加速,2K图像生成耗时与同类模型1K图相当,推理步数从100步降至8步。
原文链接
加载更多
暂无内容