标题:港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026
扩散模型是当前图像生成领域的核心技术,能够生成高度逼真的画面。然而,真实场景中,人们不仅希望模型生成逼真图像,还要求其严格按照提示完成任务。例如,生成包含指定文字的图像时,模型可能通过放大文字或简化场景来“取巧”,这种现象被称为“奖励作弊”,成为生成模型对齐研究的重要挑战。
为解决这一问题,香港大学赵恒爽团队提出了一种新的扩散模型后训练方法——GDRO(Group-level Reward Post-training Suitable for Diffusion Models)。该方法通过组级奖励优化机制,在提升模型任务表现的同时缓解奖励作弊问题,并显著提高训练效率。与传统在线强化学习不同,GDRO支持完全离线训练,提前生成并保存带评分信息的图像数据,避免重复执行扩散采样过程,从而大幅降低计算成本。
实验结果表明,GDRO在OCR任务和GenEval任务中均表现出色。OCR任务测试生成文字的准确性,经过GDRO训练后,生成的文字更清晰、排版更规范,OCR识别率显著提高。GenEval任务评估模型对文本描述的理解能力,包括物体数量、属性、位置关系等。GDRO生成的图像对象数量更准确,位置关系更符合描述,整体质量更高。
此外,GDRO有效减少了奖励作弊现象。一些强化学习方法为了获得高分,会生成不自然的图像,如放大文字或简化背景,导致图像细节丢失。而GDRO生成的图像保持完整场景,同时满足评分要求。人工评估实验也显示,GDRO在图像质量和语义匹配方面优于其他方法。
在训练效率方面,GDRO采用离线训练方式,提前生成数据并在训练中反复使用,显著缩短了训练时间。相比传统方法,GDRO在某些任务中效率可提升数倍。
研究选择FLUX.1-dev作为基础模型,并使用两个数据集进行实验,分别对应OCR任务和GenEval任务。GDRO通过排序奖励信息优化模型,逐渐减少低评分图像的生成概率。实验还对比了多种方法,验证了GDRO在性能和稳定性上的优势。
这项研究带来三个重要启示:扩散模型可通过奖励优化实现对齐;离线训练能显著降低计算成本;评价指标需谨慎设计以避免模型投机行为。
论文一作汪逸阳是香港大学博士生,研究方向包括视觉生成模型和多模态模型优化。通讯作者赵恒爽是香港大学助理教授,专注于计算机视觉与生成式人工智能研究,曾获多项国际学术荣誉。
论文地址:https://arxiv.org/pdf/2601.02036
参考链接:https://i.cs.hku.hk/~hszhao/
https://chandlerwang14.github.io/
-
2026-03-20 18:55:59 -
2026-03-20 18:53:50 -
2026-03-20 17:56:09