西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

2026-03-24 11:45:18

智能维度跳跃

发布在

科普

阅读：894

标题：西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

正文：
让 AI 连续生成一致的图像一直是个难题。例如，AI 画一个角色时，第一张可能很好看，但后续几张会出现明显差异；制作海报或故事分镜时，风格、身份甚至逻辑都难以统一。这种问题在 IP 设计、品牌视觉等领域尤为致命，因为实际需求往往是一整组图像的一致性，而不仅是单张质量。

当前生成模型虽能高质量完成单次任务，但缺乏跨图关系的稳定建模能力。为此，西安交通大学与新加坡 A*STAR 的研究团队提出了《PaCo-RL》论文，通过“跨图比较”学习一致性，将问题转化为成对奖励建模，并结合强化学习优化生成过程，从而实现从“会判断”到“会生成”的闭环。

实验显示，现有模型如 Qwen2.5-VL-7B 在一致性判断上表现不佳，准确率仅 0.344，而传统方法 CLIP-I 和 DreamSim 分别达到 0.394 和 0.403。相比之下，研究团队提出的 PaCo-Reward 模型准确率提升至 0.449，在排序相关性指标上也显著优于其他方法。此外，在 EditReward-Bench 测试中，PaCo-Reward 在一致性指标上达到 0.709，接近 GPT-5 表现，展现出良好的泛化能力。

研究人员还通过强化学习框架验证了模型性能。结果显示，在 Text-to-ImageSet 任务中，一致性指标提升约 10.3%-11.7%，在身份、风格和逻辑等维度均有改善。同时，低分辨率训练策略显著降低了计算成本，训练时间缩短一半以上，且奖励平衡机制避免了优化偏移问题。

为解决一致性数据不足的问题，团队设计了一套自动生成与人工标注的数据构建流程，生成超过 5 万对图像样本，并通过两两比较的方式增强可解释性。PaCo-Reward 模型将一致性判断建模为生成任务，输出不仅包含判断结果，还有推理过程，进一步提升了模型的稳定性与可控性。

这项研究的意义不仅在于技术突破，更在于改变了 AI 的使用体验。通过系统性设计，模型能够连续生成一致图像，使 AI 从“能用”走向“可用”。未来，用户无需反复调整提示词，AI 可自动修正偏差，逐步生成符合预期的内容，大幅降低使用门槛。

论文共同一作为贾成铕（西安交通大学博士生）和平博文，通讯作者为钱航薇（新加坡 A*STAR 研究员）。研究团队专注于多模态生成与强化学习，目标是提升生成任务的一致性与智能性。

论文地址：https://arxiv.org/pdf/2512.04784

原文链接

本文链接：https://kx.umi6.com/article/34078.html

转载请注明文章出处

一致性