1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

扩散模型是当前图像生成领域的核心技术,能够生成高度逼真的画面。然而,真实场景中,人们不仅希望模型生成逼真图像,还要求其严格按照提示完成任务。例如,生成包含指定文字的图像时,模型可能通过放大文字或简化场景来“取巧”,这种现象被称为“奖励作弊”,成为生成模型对齐研究的重要挑战。

为解决这一问题,香港大学赵恒爽团队提出了一种新的扩散模型后训练方法——GDRO(Group-level Reward Post-training Suitable for Diffusion Models)。该方法通过组级奖励优化机制,在提升模型任务表现的同时缓解奖励作弊问题,并显著提高训练效率。与传统在线强化学习不同,GDRO支持完全离线训练,提前生成并保存带评分信息的图像数据,避免重复执行扩散采样过程,从而大幅降低计算成本。

实验结果表明,GDRO在OCR任务和GenEval任务中均表现出色。OCR任务测试生成文字的准确性,经过GDRO训练后,生成的文字更清晰、排版更规范,OCR识别率显著提高。GenEval任务评估模型对文本描述的理解能力,包括物体数量、属性、位置关系等。GDRO生成的图像对象数量更准确,位置关系更符合描述,整体质量更高。

此外,GDRO有效减少了奖励作弊现象。一些强化学习方法为了获得高分,会生成不自然的图像,如放大文字或简化背景,导致图像细节丢失。而GDRO生成的图像保持完整场景,同时满足评分要求。人工评估实验也显示,GDRO在图像质量和语义匹配方面优于其他方法。

在训练效率方面,GDRO采用离线训练方式,提前生成数据并在训练中反复使用,显著缩短了训练时间。相比传统方法,GDRO在某些任务中效率可提升数倍。

研究选择FLUX.1-dev作为基础模型,并使用两个数据集进行实验,分别对应OCR任务和GenEval任务。GDRO通过排序奖励信息优化模型,逐渐减少低评分图像的生成概率。实验还对比了多种方法,验证了GDRO在性能和稳定性上的优势。

这项研究带来三个重要启示:扩散模型可通过奖励优化实现对齐;离线训练能显著降低计算成本;评价指标需谨慎设计以避免模型投机行为。

论文一作汪逸阳是香港大学博士生,研究方向包括视觉生成模型和多模态模型优化。通讯作者赵恒爽是香港大学助理教授,专注于计算机视觉与生成式人工智能研究,曾获多项国际学术荣誉。

论文地址:https://arxiv.org/pdf/2601.02036
参考链接:https://i.cs.hku.hk/~hszhao/
https://chandlerwang14.github.io/

原文链接
本文链接:https://kx.umi6.com/article/33988.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026
2026-03-20 16:52:29
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
2025-12-29 13:21:05
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
2025-09-25 22:11:00
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
2025-01-11 12:37:26
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型
2024-12-05 16:02:34
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
2026-02-11 10:10:31
DiT突遭怒喷,谢赛宁淡定回应
2025-08-20 17:19:58
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
2025-10-28 15:54:58
谢赛宁新作:VAE退役,RAE当立
2025-10-14 17:20:36
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
2025-08-13 17:38:29
24小时热文
更多
扫一扫体验小程序