标题:西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
正文:
让 AI 连续生成一致的图像一直是个难题。例如,AI 画一个角色时,第一张可能很好看,但后续几张会出现明显差异;制作海报或故事分镜时,风格、身份甚至逻辑都难以统一。这种问题在 IP 设计、品牌视觉等领域尤为致命,因为实际需求往往是一整组图像的一致性,而不仅是单张质量。
当前生成模型虽能高质量完成单次任务,但缺乏跨图关系的稳定建模能力。为此,西安交通大学与新加坡 A*STAR 的研究团队提出了《PaCo-RL》论文,通过“跨图比较”学习一致性,将问题转化为成对奖励建模,并结合强化学习优化生成过程,从而实现从“会判断”到“会生成”的闭环。
实验显示,现有模型如 Qwen2.5-VL-7B 在一致性判断上表现不佳,准确率仅 0.344,而传统方法 CLIP-I 和 DreamSim 分别达到 0.394 和 0.403。相比之下,研究团队提出的 PaCo-Reward 模型准确率提升至 0.449,在排序相关性指标上也显著优于其他方法。此外,在 EditReward-Bench 测试中,PaCo-Reward 在一致性指标上达到 0.709,接近 GPT-5 表现,展现出良好的泛化能力。
研究人员还通过强化学习框架验证了模型性能。结果显示,在 Text-to-ImageSet 任务中,一致性指标提升约 10.3%-11.7%,在身份、风格和逻辑等维度均有改善。同时,低分辨率训练策略显著降低了计算成本,训练时间缩短一半以上,且奖励平衡机制避免了优化偏移问题。
为解决一致性数据不足的问题,团队设计了一套自动生成与人工标注的数据构建流程,生成超过 5 万对图像样本,并通过两两比较的方式增强可解释性。PaCo-Reward 模型将一致性判断建模为生成任务,输出不仅包含判断结果,还有推理过程,进一步提升了模型的稳定性与可控性。
这项研究的意义不仅在于技术突破,更在于改变了 AI 的使用体验。通过系统性设计,模型能够连续生成一致图像,使 AI 从“能用”走向“可用”。未来,用户无需反复调整提示词,AI 可自动修正偏差,逐步生成符合预期的内容,大幅降低使用门槛。
论文共同一作为贾成铕(西安交通大学博士生)和平博文,通讯作者为钱航薇(新加坡 A*STAR 研究员)。研究团队专注于多模态生成与强化学习,目标是提升生成任务的一致性与智能性。
论文地址:https://arxiv.org/pdf/2512.04784
-
2026-03-24 12:51:29 -
2026-03-24 12:50:42 -
2026-03-24 12:50:21