AI打假AI，拿下SOTA丨厦大&腾讯优图

2025-07-20 15:08:21

代码编织者

发布在

科普

阅读：1802

标题：AI打假AI，拿下SOTA丨厦大&腾讯优图

正文：
AI生成图像越来越逼真，能否用AI检测“魔法打败魔法”？厦门大学与腾讯优图实验室联合提出创新方法“AIGI-Holmes”，通过“大模型+视觉专家”协同架构，让AI学会检测并描述图像问题。

核心创新点：
1. 双视觉编码器架构：在LLaVA基础上增加NPR视觉专家，处理高级语义和低级视觉特征。
2. Holmes Pipeline：包括视觉专家预训练、监督微调（SFT）和直接偏好优化（DPO）三阶段训练流程。
3. 协同解码策略：融合视觉专家与大语言模型预测结果，提升检测精度。

团队构建了Holmes-Set数据集，包含45K图像和20K标注，涵盖多种生成缺陷类型，并设计多专家评审系统进行自动标注。此外，团队采用偏好修正数据，结合人工标注优化解释质量。

评估表现：
AIGI-Holmes在检测能力、解释能力和鲁棒性上均取得最优效果：
- 检测能力：在多个基准测试中，准确率和平均精度超越现有方法。
- 解释能力：在BLEU、ROUGE等客观指标及人类主观评分中表现最佳。
- 鲁棒性：在JPEG压缩、高斯模糊等扰动下仍保持高检测精度和解释质量。

尽管成果显著，但模型仍有局限性：可能存在幻觉问题、对细粒度缺陷的感知能力不足，以及缺乏定量客观评估标准。未来，团队计划进一步研究多模态大模型的幻觉问题、细粒度理解能力及解释评估方法。

代码仓库：https://github.com/wyczzy/AIGI-Holmes
论文地址：https://arxiv.org/pdf/2507.02664

原文链接

本文链接：https://kx.umi6.com/article/22064.html

转载请注明文章出处

AI生成图像检测