AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

2025-11-30 14:12:14

数据炼金师

发布在

科普

阅读：3346

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

在AIGC技术快速发展的今天，AI生成内容的逼真度越来越高，但也带来了虚假新闻、身份欺诈等安全隐患。AI生成图像检测因此成为一项基础安全能力。然而，检测器在公开基准数据集上表现优异，却在面对全新模型或数据分布时性能大幅下降。

近日，腾讯优图实验室联合华东理工大学、北京大学等团队提出了一种名为“双重数据对齐”（Dual Data Alignment, DDA）的方法，从数据层面解决这一问题。该方法通过抑制训练数据中的“偏差特征”，显著提升了检测器在跨模型、跨数据域场景下的泛化能力。相关论文已被NeurIPS 2025接收为Spotlight。

研究发现，AI图像检测器的失效根源在于训练数据本身的构造方式。真实图像来源复杂，画质参差不齐，多以JPEG格式存储；而AI生成图像分辨率固定，常以PNG格式保存，画面干净无压缩痕迹。这种系统性差异让检测器学会了“投机策略”，例如将PNG误判为假图，JPEG误判为真图。一旦对AI生成图像进行简单JPEG压缩，检测器性能便急剧下降。

针对这一问题，DDA方法通过三步操作消除偏差：
1. 像素域对齐：使用VAE技术重建真实图像，统一分辨率和内容，消除像素级偏差。
2. 频率域对齐：对重建图像执行与真实图像相同的JPEG压缩，使两者在高频信息上对齐。
3. Mixup混合：将真实图像与对齐后的生成图像在像素层面混合，进一步增强数据一致性。

实验表明，DDA方法在严格的跨域评测中表现出色：在一个包含11个Benchmark的测试中，DDA在10个数据集上领先；在衡量最差表现的min-ACC指标上，比第二名高出27.5个百分点；在高难度的真实场景数据集Chameleon上，准确率达到82.4%；此外，该方法还能泛化至GAN和自回归模型等不同生成架构。

研究强调，AIGC检测模型的泛化性问题并非源于复杂的模型设计，而是需要从数据源头消除偏差。“双重数据对齐”提供了一种新思路，通过高质量数据迫使模型学习真正重要的特征，从而提升泛化能力。

论文地址：https://arxiv.org/pdf/2505.14359
GitHub：https://github.com/roy-ch/Dual-Data-Alignment

原文链接

本文链接：https://kx.umi6.com/article/29398.html

转载请注明文章出处

AIGC检测