腾讯混元开源AI绘画新框架：24维度对齐人类意图，让AI读懂复杂指令

2025-09-17 10:27:16

智能视野

发布在

科普

阅读：1218

腾讯混元开源AI绘画新框架：24维度对齐人类意图，让AI读懂复杂指令

AI绘画常因“画不对”让创作者头疼。腾讯混元团队开源的PromptEnhancer框架，通过“思维链（CoT）提示重写”，在无需修改预训练文本到图像（T2I）模型权重的情况下，大幅提升AI对复杂指令的理解能力，尤其在抽象关系、数值约束等场景中，准确率提升超17%。

PromptEnhancer的核心创新在于两大模块：“CoT-based重写器”和“AlignEvaluator奖励模型”。前者将用户指令拆解为“核心元素-潜在歧义-细节补充”，模拟人类设计师的思考过程；后者构建了覆盖6大类别、24个关键维度的评价体系，精准定位生成图像中的错误。例如，“否定指令”维度能判断是否正确省略葱，“属性绑定”维度可评估颜色或材质的匹配度。

该框架通过两阶段训练实现优化：第一阶段使用监督微调（SFT）让重写器掌握结构化描述能力；第二阶段利用强化学习（GRPO），结合AlignEvaluator评分，逐步提高提示质量。测试显示，PromptEnhancer在HunyuanImage 2.1模型上整体准确率提升5.1%，复杂场景如“相似关系”“反事实推理”等维度提升显著，最高达17%。

此外，腾讯混元团队还开源了一个高质量基准测试数据集，包含6000条Prompt及24维度标注，涵盖日常创作、抽象关系、反事实推理等复杂场景。数据集不仅为PromptEnhancer提供训练支撑，也为研究者揭示了AI绘画指令理解的深层规律。

PromptEnhancer的意义在于其通用性、可解释性和生态补全能力。它无需修改模型权重，适配多种主流T2I模型，同时通过24维度评价体系让优化过程透明化。未来，随着AI绘画向专业领域渗透，这项技术有望推动“精准理解人类意图”的发展，助力创作者实现“所想即所得”。

项目主页：https://hunyuan-promptenhancer.github.io
Github：https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
PromptEnhancer-7B: https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt

原文链接

本文链接：https://kx.umi6.com/article/25353.html

转载请注明文章出处

AI绘画