标题:FG-CLIP实现细粒度跨模态对齐,重塑AI视觉理解
360人工智能研究院发布的FG-CLIP模型解决了传统CLIP的“视觉近视”问题,通过“长文本深度理解”和“细粒度视觉比对”双突破,精准识别局部细节。实验显示,FG-CLIP在细粒度理解、开放词汇检测、图文检索等任务中均优于其他模型。
FG-CLIP采用两阶段训练策略,首阶段通过全局对比学习实现初步对齐,次阶段引入局部对比学习与难细粒度负样本学习,强化局部特征感知。数据集构建方面,通过高质量重写和区域定位,生成了1200万张图像及4000万个边界框标注,同时整合1000万个难细粒度负样本。
实验表明,FG-CLIP在细粒度识别、区域检测、开放词汇目标检测及图文检索等任务中表现优异。研究团队计划开源模型及相关资源,推动技术进步。未来将探索更先进的多模态架构和更多元的数据集,拓展技术边界。
360人工智能研究院主页:https://research.360.cn
GitHub:https://github.com/360CVGroup
原文链接
本文链接:https://kx.umi6.com/article/17924.html
转载请注明文章出处
相关推荐
换一换
告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
2025-04-28 16:55:49
粤芯半导体年产48万片晶圆生产线启动 总投资252亿元
2026-01-22 22:15:16
Node.js之父:手写代码已死
2026-01-22 14:57:11
艾达王也难逃毒手!博主用AI模拟西方开发者审美
2026-01-23 22:19:57
AI推理GPU芯片公司曦望完成近30亿元融资
2026-01-22 16:05:02
事关AI聊天机器人和自动驾驶!马斯克和奥尔特曼隔空互喷
2026-01-21 20:25:45
苹果正在研发一款可穿戴AI别针 最早可能于2027年发布
2026-01-23 20:15:45
全球消费,进入「中国定义」时间
2026-01-22 13:54:12
英特尔CEO陈立武:AI需求强劲 对未能完全满足市场需求感到遗憾
2026-01-23 11:53:08
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
Mobileye势头强劲,2025财年全年营收同比增长15%
2026-01-23 11:47:43
纳德拉达沃斯警示:没电,AI全是空谈
2026-01-22 04:36:47
Anthropic下调其利润率预期
2026-01-22 11:52:20
595 文章
377750 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41