可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
腾讯混元与InstantX团队合作推出开源插件InstantCharacter,实现定制化角色生成。该插件基于DiTs(Diffusion Transformers),能高效生成并编辑个性化角色图像。
传统方法存在泛化性差、训练耗时等问题,而InstantCharacter通过两个核心创新解决这些难题:一是可扩展适配器,解析角色特征并与DiTs潜在空间交互;二是渐进式三阶段训练策略,提升角色一致性和文本可控性。
适配器采用full-transformer架构,结合SigLIP和DINOv2增强特征提取。训练分为三阶段:首先用未配对数据自重建,再以配对数据优化动作和风格,最后联合高分辨率图像提升细节质量。
实验显示,InstantCharacter在角色细节保留、文本可控性和风格灵活性上优于现有方法。插件及相关代码已开源,推动更多研究与应用。
原文链接
本文链接:https://kx.umi6.com/article/17775.html
转载请注明文章出处
相关推荐
换一换
一张图 + 一句话实现任意角色场景姿势,腾讯混元宣布开源定制化图像生成插件 InstantCharacter
2025-04-18 20:22:57
清华系Sora全球上线!注册即用不排队,重点支持动漫风
2024-07-30 13:47:14
谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项表现优于 GPT-4o
2025-08-27 09:00:44
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
2025-04-25 17:17:07
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
2025-12-06 21:51:03
亚马逊CTO:开发者只要能进化绝不会被AI取代
2025-12-07 22:52:28
联想入股原力聚合机器人科技公司
2025-12-08 11:27:54
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
Gartner 调查:仅 20% 客服支持主管表示因 AI 削减团队规模
2025-12-08 14:31:10
智元第 5000 台人形机器人“灵犀 X2”量产下线,已具备批量出货能力
2025-12-08 17:37:43
设立河南首支AI基金,领投众擎赋能产业生态
2025-12-08 15:33:26
英伟达 4B 小模型击败 GPT-5 Pro!单任务成本仅后者 1/36
2025-12-08 16:36:14
甘肃庆阳智算规模达10万P
2025-12-08 16:38:29
605 文章
365794 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42