1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AI打假AI,拿下SOTA丨厦大&腾讯优图

正文:
AI生成图像越来越逼真,能否用AI检测“魔法打败魔法”?厦门大学与腾讯优图实验室联合提出创新方法“AIGI-Holmes”,通过“大模型+视觉专家”协同架构,让AI学会检测并描述图像问题。

核心创新点
1. 双视觉编码器架构:在LLaVA基础上增加NPR视觉专家,处理高级语义和低级视觉特征。
2. Holmes Pipeline:包括视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段训练流程。
3. 协同解码策略:融合视觉专家与大语言模型预测结果,提升检测精度。

团队构建了Holmes-Set数据集,包含45K图像和20K标注,涵盖多种生成缺陷类型,并设计多专家评审系统进行自动标注。此外,团队采用偏好修正数据,结合人工标注优化解释质量。

评估表现
AIGI-Holmes在检测能力、解释能力和鲁棒性上均取得最优效果:
- 检测能力:在多个基准测试中,准确率和平均精度超越现有方法。
- 解释能力:在BLEU、ROUGE等客观指标及人类主观评分中表现最佳。
- 鲁棒性:在JPEG压缩、高斯模糊等扰动下仍保持高检测精度和解释质量。

尽管成果显著,但模型仍有局限性:可能存在幻觉问题、对细粒度缺陷的感知能力不足,以及缺乏定量客观评估标准。未来,团队计划进一步研究多模态大模型的幻觉问题、细粒度理解能力及解释评估方法。

代码仓库:https://github.com/wyczzy/AIGI-Holmes
论文地址:https://arxiv.org/pdf/2507.02664

原文链接
本文链接:https://kx.umi6.com/article/22064.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
AI打假AI,拿下SOTA丨厦大&腾讯优图
2025-07-20 15:08:21
小红书等给AI图像检测上难度!数据集均通过人类感知“图灵测试”
2025-02-20 14:16:03
你的专属“钢铁侠”助手OSAgents来了!浙大等10个机构全新综述
2025-01-03 16:46:01
Faker 回应马斯克英雄联盟 AI 挑战:我们明年可能会赢,但 AI 迟早能赢
2025-12-19 22:11:49
AI预报全球天气 气象人工智能科学模型“风源”发布
2025-12-19 17:00:51
日立自研人形机器人亮相,将上岗工厂代替人类“布线安装”等作业
2025-12-18 18:01:02
韩国科技部长:中国将成比美国更大的AI竞争对手!
2025-12-18 19:09:33
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
新一批上海市地方标准制修订项目计划公布 涉及数字经济等领域
2025-12-19 16:02:18
微软、谷歌、英特尔、英伟达、AMD、OpenAI 等 24 家公司加入美国人工智能“创世纪计划”
2025-12-19 09:38:43
美银:美股单周资金流入规模创纪录第二大 科技股三周以来首度获流入
2025-12-19 20:09:03
安徽“十五五”规划建议:实施高水平通用大模型、垂类大模型培育工程 加强关键算法研发
2025-12-19 09:40:42
24小时热文
更多
扫一扫体验小程序