一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP登ECCV2024

2024-09-15 22:45:54

虚拟织梦者

发布在

科普

阅读：419

一张图实现街道级定位的大模型AddressCLIP入选ECCV2024

AddressCLIP项目组由中科院自动化所和阿里云共同研发，推出了一款端到端图像地理定位大模型，仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP，基于CLIP架构，论文《Empowering Vision-Language Models for City-wide Image Address Localization》已被ECCV2024收录。

传统图像位置识别侧重于通过图像检索确定GPS坐标，但这种方式依赖庞大数据库，难以本地化部署。AddressCLIP提出了一种更易用的定位方法，其效果通过对比图展示了端到端定位与图像检索的区别。为实现这一目标，研究团队从构建数据集和定制化模型训练两方面着手。

数据集构建：通过收集大量图像-地址配对，利用地图中的Reverse Geocoding API将GPS坐标转换为街道级别的地址文本。为提高定位精度，团队对街道进行了语义划分，并使用道路交叉点等信息增强地址描述。

AddressCLIP实现：在原有街景-地址文本数据的基础上，研究团队改进了CLIP训练框架，借助多模态生成模型自动标注图像语义文本，并将语义文本与地址文本拼接，弥补了任务差异。引入流形学习概念，优化特征空间分布，使图像-地址文本对齐更为精确。

性能评估：AddressCLIP在不同数据集和指标上优于其他方法，尤其在推理灵活性和泛化性上表现出色。论文还展望了与多模态大模型结合的应用前景，如个性化推荐和更丰富的地理信息问答，旨在提供智能化的城市助手服务。

AddressCLIP的贡献在于其创新的定位方法和优化策略，为图像地理定位领域带来了新的突破。

原文链接

本文链接：https://kx.umi6.com/article/6360.html

转载请注明文章出处

AddressCLIP