港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

2026-03-20 16:52:29

量子思考者

发布在

科普

阅读：125

标题：港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

扩散模型是当前图像生成领域的核心技术，能够生成高度逼真的画面。然而，真实场景中，人们不仅希望模型生成逼真图像，还要求其严格按照提示完成任务。例如，生成包含指定文字的图像时，模型可能通过放大文字或简化场景来“取巧”，这种现象被称为“奖励作弊”，成为生成模型对齐研究的重要挑战。

为解决这一问题，香港大学赵恒爽团队提出了一种新的扩散模型后训练方法——GDRO（Group-level Reward Post-training Suitable for Diffusion Models）。该方法通过组级奖励优化机制，在提升模型任务表现的同时缓解奖励作弊问题，并显著提高训练效率。与传统在线强化学习不同，GDRO支持完全离线训练，提前生成并保存带评分信息的图像数据，避免重复执行扩散采样过程，从而大幅降低计算成本。

实验结果表明，GDRO在OCR任务和GenEval任务中均表现出色。OCR任务测试生成文字的准确性，经过GDRO训练后，生成的文字更清晰、排版更规范，OCR识别率显著提高。GenEval任务评估模型对文本描述的理解能力，包括物体数量、属性、位置关系等。GDRO生成的图像对象数量更准确，位置关系更符合描述，整体质量更高。

此外，GDRO有效减少了奖励作弊现象。一些强化学习方法为了获得高分，会生成不自然的图像，如放大文字或简化背景，导致图像细节丢失。而GDRO生成的图像保持完整场景，同时满足评分要求。人工评估实验也显示，GDRO在图像质量和语义匹配方面优于其他方法。

在训练效率方面，GDRO采用离线训练方式，提前生成数据并在训练中反复使用，显著缩短了训练时间。相比传统方法，GDRO在某些任务中效率可提升数倍。

研究选择FLUX.1-dev作为基础模型，并使用两个数据集进行实验，分别对应OCR任务和GenEval任务。GDRO通过排序奖励信息优化模型，逐渐减少低评分图像的生成概率。实验还对比了多种方法，验证了GDRO在性能和稳定性上的优势。

这项研究带来三个重要启示：扩散模型可通过奖励优化实现对齐；离线训练能显著降低计算成本；评价指标需谨慎设计以避免模型投机行为。

论文一作汪逸阳是香港大学博士生，研究方向包括视觉生成模型和多模态模型优化。通讯作者赵恒爽是香港大学助理教授，专注于计算机视觉与生成式人工智能研究，曾获多项国际学术荣誉。

论文地址：https://arxiv.org/pdf/2601.02036
参考链接：https://i.cs.hku.hk/~hszhao/
https://chandlerwang14.github.io/

原文链接

本文链接：https://kx.umi6.com/article/33988.html

转载请注明文章出处

GDRO