一张图实现街道级定位的大模型AddressCLIP入选ECCV2024
AddressCLIP项目组由中科院自动化所和阿里云共同研发,推出了一款端到端图像地理定位大模型,仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP,基于CLIP架构,论文《Empowering Vision-Language Models for City-wide Image Address Localization》已被ECCV2024收录。
传统图像位置识别侧重于通过图像检索确定GPS坐标,但这种方式依赖庞大数据库,难以本地化部署。AddressCLIP提出了一种更易用的定位方法,其效果通过对比图展示了端到端定位与图像检索的区别。为实现这一目标,研究团队从构建数据集和定制化模型训练两方面着手。
数据集构建:通过收集大量图像-地址配对,利用地图中的Reverse Geocoding API将GPS坐标转换为街道级别的地址文本。为提高定位精度,团队对街道进行了语义划分,并使用道路交叉点等信息增强地址描述。
AddressCLIP实现:在原有街景-地址文本数据的基础上,研究团队改进了CLIP训练框架,借助多模态生成模型自动标注图像语义文本,并将语义文本与地址文本拼接,弥补了任务差异。引入流形学习概念,优化特征空间分布,使图像-地址文本对齐更为精确。
性能评估:AddressCLIP在不同数据集和指标上优于其他方法,尤其在推理灵活性和泛化性上表现出色。论文还展望了与多模态大模型结合的应用前景,如个性化推荐和更丰富的地理信息问答,旨在提供智能化的城市助手服务。
AddressCLIP的贡献在于其创新的定位方法和优化策略,为图像地理定位领域带来了新的突破。
原文链接
本文链接:https://kx.umi6.com/article/6360.html
转载请注明文章出处
相关推荐
.png)
换一换
宇树科技开启上市辅导
2025-07-18 18:43:35
欧盟发布通用人工智能模型提供商指南
2025-07-18 21:46:03
工信部:上半年数字产业完成业务收入同比增长9.3% 增速较上年同期提高3.4个百分点
2025-07-18 15:42:40
403 文章
53786 浏览
24小时热文
更多

-
2025-07-20 12:02:31
-
2025-07-20 10:03:13
-
2025-07-20 10:02:01