1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

一张图实现街道级定位的大模型AddressCLIP入选ECCV2024

AddressCLIP项目组由中科院自动化所和阿里云共同研发,推出了一款端到端图像地理定位大模型,仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP,基于CLIP架构,论文《Empowering Vision-Language Models for City-wide Image Address Localization》已被ECCV2024收录。

传统图像位置识别侧重于通过图像检索确定GPS坐标,但这种方式依赖庞大数据库,难以本地化部署。AddressCLIP提出了一种更易用的定位方法,其效果通过对比图展示了端到端定位与图像检索的区别。为实现这一目标,研究团队从构建数据集和定制化模型训练两方面着手。

数据集构建:通过收集大量图像-地址配对,利用地图中的Reverse Geocoding API将GPS坐标转换为街道级别的地址文本。为提高定位精度,团队对街道进行了语义划分,并使用道路交叉点等信息增强地址描述。

AddressCLIP实现:在原有街景-地址文本数据的基础上,研究团队改进了CLIP训练框架,借助多模态生成模型自动标注图像语义文本,并将语义文本与地址文本拼接,弥补了任务差异。引入流形学习概念,优化特征空间分布,使图像-地址文本对齐更为精确。

性能评估:AddressCLIP在不同数据集和指标上优于其他方法,尤其在推理灵活性和泛化性上表现出色。论文还展望了与多模态大模型结合的应用前景,如个性化推荐和更丰富的地理信息问答,旨在提供智能化的城市助手服务。

AddressCLIP的贡献在于其创新的定位方法和优化策略,为图像地理定位领域带来了新的突破。

原文链接
本文链接:https://kx.umi6.com/article/6360.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
宇树科技开启上市辅导
2025-07-18 18:43:35
欧盟发布通用人工智能模型提供商指南
2025-07-18 21:46:03
工信部:上半年数字产业完成业务收入同比增长9.3% 增速较上年同期提高3.4个百分点
2025-07-18 15:42:40
24小时热文
更多
扫一扫体验小程序