可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
腾讯混元与InstantX团队合作推出开源插件InstantCharacter,实现定制化角色生成。该插件基于DiTs(Diffusion Transformers),能高效生成并编辑个性化角色图像。
传统方法存在泛化性差、训练耗时等问题,而InstantCharacter通过两个核心创新解决这些难题:一是可扩展适配器,解析角色特征并与DiTs潜在空间交互;二是渐进式三阶段训练策略,提升角色一致性和文本可控性。
适配器采用full-transformer架构,结合SigLIP和DINOv2增强特征提取。训练分为三阶段:首先用未配对数据自重建,再以配对数据优化动作和风格,最后联合高分辨率图像提升细节质量。
实验显示,InstantCharacter在角色细节保留、文本可控性和风格灵活性上优于现有方法。插件及相关代码已开源,推动更多研究与应用。
原文链接
本文链接:https://kx.umi6.com/article/17775.html
转载请注明文章出处
相关推荐
.png)
换一换
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
2024-11-05 16:03:16
手机进入自动驾驶时代!荣耀MagicOS 9.0支持纯AI视觉 三方零适配
2024-10-23 15:39:02
起底AIGC概念股:退潮之后,谁在裸泳?
2024-09-15 10:06:54
426 文章
66105 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21