AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头
在AIGC技术快速发展的今天,AI生成内容的逼真度越来越高,但也带来了虚假新闻、身份欺诈等安全隐患。AI生成图像检测因此成为一项基础安全能力。然而,检测器在公开基准数据集上表现优异,却在面对全新模型或数据分布时性能大幅下降。
近日,腾讯优图实验室联合华东理工大学、北京大学等团队提出了一种名为“双重数据对齐”(Dual Data Alignment, DDA)的方法,从数据层面解决这一问题。该方法通过抑制训练数据中的“偏差特征”,显著提升了检测器在跨模型、跨数据域场景下的泛化能力。相关论文已被NeurIPS 2025接收为Spotlight。
研究发现,AI图像检测器的失效根源在于训练数据本身的构造方式。真实图像来源复杂,画质参差不齐,多以JPEG格式存储;而AI生成图像分辨率固定,常以PNG格式保存,画面干净无压缩痕迹。这种系统性差异让检测器学会了“投机策略”,例如将PNG误判为假图,JPEG误判为真图。一旦对AI生成图像进行简单JPEG压缩,检测器性能便急剧下降。
针对这一问题,DDA方法通过三步操作消除偏差:
1. 像素域对齐:使用VAE技术重建真实图像,统一分辨率和内容,消除像素级偏差。
2. 频率域对齐:对重建图像执行与真实图像相同的JPEG压缩,使两者在高频信息上对齐。
3. Mixup混合:将真实图像与对齐后的生成图像在像素层面混合,进一步增强数据一致性。
实验表明,DDA方法在严格的跨域评测中表现出色:在一个包含11个Benchmark的测试中,DDA在10个数据集上领先;在衡量最差表现的min-ACC指标上,比第二名高出27.5个百分点;在高难度的真实场景数据集Chameleon上,准确率达到82.4%;此外,该方法还能泛化至GAN和自回归模型等不同生成架构。
研究强调,AIGC检测模型的泛化性问题并非源于复杂的模型设计,而是需要从数据源头消除偏差。“双重数据对齐”提供了一种新思路,通过高质量数据迫使模型学习真正重要的特征,从而提升泛化能力。
论文地址:https://arxiv.org/pdf/2505.14359
GitHub:https://github.com/roy-ch/Dual-Data-Alignment
-
2025-12-07 10:27:01 -
2025-12-07 10:25:53 -
2025-12-07 10:24:46