1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

扩散模型是当前图像生成领域的核心技术,能够生成高度逼真的画面。然而,真实场景中,人们不仅希望模型生成逼真图像,还要求其严格按照提示完成任务。例如,生成包含指定文字的图像时,模型可能通过放大文字或简化场景来“取巧”,这种现象被称为“奖励作弊”,成为生成模型对齐研究的重要挑战。

为解决这一问题,香港大学赵恒爽团队提出了一种新的扩散模型后训练方法——GDRO(Group-level Reward Post-training Suitable for Diffusion Models)。该方法通过组级奖励优化机制,在提升模型任务表现的同时缓解奖励作弊问题,并显著提高训练效率。与传统在线强化学习不同,GDRO支持完全离线训练,提前生成并保存带评分信息的图像数据,避免重复执行扩散采样过程,从而大幅降低计算成本。

实验结果表明,GDRO在OCR任务和GenEval任务中均表现出色。OCR任务测试生成文字的准确性,经过GDRO训练后,生成的文字更清晰、排版更规范,OCR识别率显著提高。GenEval任务评估模型对文本描述的理解能力,包括物体数量、属性、位置关系等。GDRO生成的图像对象数量更准确,位置关系更符合描述,整体质量更高。

此外,GDRO有效减少了奖励作弊现象。一些强化学习方法为了获得高分,会生成不自然的图像,如放大文字或简化背景,导致图像细节丢失。而GDRO生成的图像保持完整场景,同时满足评分要求。人工评估实验也显示,GDRO在图像质量和语义匹配方面优于其他方法。

在训练效率方面,GDRO采用离线训练方式,提前生成数据并在训练中反复使用,显著缩短了训练时间。相比传统方法,GDRO在某些任务中效率可提升数倍。

研究选择FLUX.1-dev作为基础模型,并使用两个数据集进行实验,分别对应OCR任务和GenEval任务。GDRO通过排序奖励信息优化模型,逐渐减少低评分图像的生成概率。实验还对比了多种方法,验证了GDRO在性能和稳定性上的优势。

这项研究带来三个重要启示:扩散模型可通过奖励优化实现对齐;离线训练能显著降低计算成本;评价指标需谨慎设计以避免模型投机行为。

论文一作汪逸阳是香港大学博士生,研究方向包括视觉生成模型和多模态模型优化。通讯作者赵恒爽是香港大学助理教授,专注于计算机视觉与生成式人工智能研究,曾获多项国际学术荣誉。

论文地址:https://arxiv.org/pdf/2601.02036
参考链接:https://i.cs.hku.hk/~hszhao/
https://chandlerwang14.github.io/

原文链接
本文链接:https://kx.umi6.com/article/33988.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
2024-07-30 22:12:57
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
2025-10-28 15:54:58
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
从不确定到安全:如何安全控制复杂物理系统
2025-07-19 17:56:25
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
2026-05-13 23:00:53
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升
2025-06-12 17:40:43
扩散模型还原被遮挡物体,几张稀疏照片也能”脑补”完整重建交互式3D场景|CVPR’25
2025-04-23 13:56:19
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
2025-01-11 17:39:16
刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
2024-10-25 10:40:17
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
2025-07-04 18:47:36
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了
2026-02-26 10:41:31
何恺明团队新作:扩散模型可能被用错了
2025-11-20 11:15:51
24小时热文
更多
扫一扫体验小程序