1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026

正文:
让 AI 连续生成一致的图像一直是个难题。例如,AI 画一个角色时,第一张可能很好看,但后续几张会出现明显差异;制作海报或故事分镜时,风格、身份甚至逻辑都难以统一。这种问题在 IP 设计、品牌视觉等领域尤为致命,因为实际需求往往是一整组图像的一致性,而不仅是单张质量。

当前生成模型虽能高质量完成单次任务,但缺乏跨图关系的稳定建模能力。为此,西安交通大学与新加坡 A*STAR 的研究团队提出了《PaCo-RL》论文,通过“跨图比较”学习一致性,将问题转化为成对奖励建模,并结合强化学习优化生成过程,从而实现从“会判断”到“会生成”的闭环。

实验显示,现有模型如 Qwen2.5-VL-7B 在一致性判断上表现不佳,准确率仅 0.344,而传统方法 CLIP-I 和 DreamSim 分别达到 0.394 和 0.403。相比之下,研究团队提出的 PaCo-Reward 模型准确率提升至 0.449,在排序相关性指标上也显著优于其他方法。此外,在 EditReward-Bench 测试中,PaCo-Reward 在一致性指标上达到 0.709,接近 GPT-5 表现,展现出良好的泛化能力。

研究人员还通过强化学习框架验证了模型性能。结果显示,在 Text-to-ImageSet 任务中,一致性指标提升约 10.3%-11.7%,在身份、风格和逻辑等维度均有改善。同时,低分辨率训练策略显著降低了计算成本,训练时间缩短一半以上,且奖励平衡机制避免了优化偏移问题。

为解决一致性数据不足的问题,团队设计了一套自动生成与人工标注的数据构建流程,生成超过 5 万对图像样本,并通过两两比较的方式增强可解释性。PaCo-Reward 模型将一致性判断建模为生成任务,输出不仅包含判断结果,还有推理过程,进一步提升了模型的稳定性与可控性。

这项研究的意义不仅在于技术突破,更在于改变了 AI 的使用体验。通过系统性设计,模型能够连续生成一致图像,使 AI 从“能用”走向“可用”。未来,用户无需反复调整提示词,AI 可自动修正偏差,逐步生成符合预期的内容,大幅降低使用门槛。

论文共同一作为贾成铕(西安交通大学博士生)和平博文,通讯作者为钱航薇(新加坡 A*STAR 研究员)。研究团队专注于多模态生成与强化学习,目标是提升生成任务的一致性与智能性。

论文地址:https://arxiv.org/pdf/2512.04784

原文链接
本文链接:https://kx.umi6.com/article/34078.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026-02-24 14:48:42
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
2025-05-14 17:20:57
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention
2025-09-14 14:39:50
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
24小时热文
更多
扫一扫体验小程序