1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:FG-CLIP实现细粒度跨模态对齐,重塑AI视觉理解

360人工智能研究院发布的FG-CLIP模型解决了传统CLIP的“视觉近视”问题,通过“长文本深度理解”和“细粒度视觉比对”双突破,精准识别局部细节。实验显示,FG-CLIP在细粒度理解、开放词汇检测、图文检索等任务中均优于其他模型。

FG-CLIP采用两阶段训练策略,首阶段通过全局对比学习实现初步对齐,次阶段引入局部对比学习与难细粒度负样本学习,强化局部特征感知。数据集构建方面,通过高质量重写和区域定位,生成了1200万张图像及4000万个边界框标注,同时整合1000万个难细粒度负样本。

实验表明,FG-CLIP在细粒度识别、区域检测、开放词汇目标检测及图文检索等任务中表现优异。研究团队计划开源模型及相关资源,推动技术进步。未来将探索更先进的多模态架构和更多元的数据集,拓展技术边界。

360人工智能研究院主页:https://research.360.cn
GitHub:https://github.com/360CVGroup

原文链接
本文链接:https://kx.umi6.com/article/17924.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
2025-04-28 16:55:49
阿里夸克AI眼镜24日开启预售 3699元起
2025-10-23 19:13:38
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
FM Agent登顶OpenAI MLE-Bench,由百度智能云研发
2025-10-24 17:44:39
OpenAI进军音乐模型!全球科技巨头竞逐AI“旋律革命”
2025-10-25 18:37:15
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
具身智能落地茶颜悦色,“新店员”刷屏了
2025-10-24 16:46:05
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
2025-10-24 12:36:00
Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识
2025-10-25 12:20:19
限60天以内!特朗普政府拟加快电网接入审批 支持AI数据中心建设
2025-10-24 11:38:17
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
工信部王鹏:将大力推进“5G+工业互联网”512工程升级版实施方案
2025-10-24 14:42:43
24小时热文
更多
扫一扫体验小程序