1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令

AI绘画常因“画不对”让创作者头疼。腾讯混元团队开源的PromptEnhancer框架,通过“思维链(CoT)提示重写”,在无需修改预训练文本到图像(T2I)模型权重的情况下,大幅提升AI对复杂指令的理解能力,尤其在抽象关系、数值约束等场景中,准确率提升超17%。

PromptEnhancer的核心创新在于两大模块:“CoT-based重写器”和“AlignEvaluator奖励模型”。前者将用户指令拆解为“核心元素-潜在歧义-细节补充”,模拟人类设计师的思考过程;后者构建了覆盖6大类别、24个关键维度的评价体系,精准定位生成图像中的错误。例如,“否定指令”维度能判断是否正确省略葱,“属性绑定”维度可评估颜色或材质的匹配度。

该框架通过两阶段训练实现优化:第一阶段使用监督微调(SFT)让重写器掌握结构化描述能力;第二阶段利用强化学习(GRPO),结合AlignEvaluator评分,逐步提高提示质量。测试显示,PromptEnhancer在HunyuanImage 2.1模型上整体准确率提升5.1%,复杂场景如“相似关系”“反事实推理”等维度提升显著,最高达17%。

此外,腾讯混元团队还开源了一个高质量基准测试数据集,包含6000条Prompt及24维度标注,涵盖日常创作、抽象关系、反事实推理等复杂场景。数据集不仅为PromptEnhancer提供训练支撑,也为研究者揭示了AI绘画指令理解的深层规律。

PromptEnhancer的意义在于其通用性、可解释性和生态补全能力。它无需修改模型权重,适配多种主流T2I模型,同时通过24维度评价体系让优化过程透明化。未来,随着AI绘画向专业领域渗透,这项技术有望推动“精准理解人类意图”的发展,助力创作者实现“所想即所得”。

项目主页:https://hunyuan-promptenhancer.github.io
Github:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
PromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt

原文链接
本文链接:https://kx.umi6.com/article/25353.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
2025-09-17 10:27:16
一头大象难倒ChatGPT
2025-03-05 14:08:03
英国艺术家偷偷将AI绘画挂进博物馆:数百人参观未发现不妥
2025-11-13 01:33:10
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
2024-12-01 19:36:50
Stable Diffusion原班人马新公司官宣!新模型一夜刷新AI绘画格局,已获2.3亿元融资
2024-08-02 13:53:31
变身“神笔马良”,国产AI只需要15秒
2024-09-04 16:50:05
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
“龙虾” 炸翻AI圈!雷军下场 鹅厂排长队
2026-03-07 00:48:20
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
卡帕西开源Agent自进化训练框架,5分钟一轮实验,48h内揽星9.5k
2026-03-09 15:50:15
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
Transformer作者重造龙虾,Rust搓出钢铁版,告别OpenClaw裸奔
2026-03-06 18:21:20
24小时热文
更多
扫一扫体验小程序