一张图实现街道级定位的大模型AddressCLIP入选ECCV2024
AddressCLIP项目组由中科院自动化所和阿里云共同研发,推出了一款端到端图像地理定位大模型,仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP,基于CLIP架构,论文《Empowering Vision-Language Models for City-wide Image Address Localization》已被ECCV2024收录。
传统图像位置识别侧重于通过图像检索确定GPS坐标,但这种方式依赖庞大数据库,难以本地化部署。AddressCLIP提出了一种更易用的定位方法,其效果通过对比图展示了端到端定位与图像检索的区别。为实现这一目标,研究团队从构建数据集和定制化模型训练两方面着手。
数据集构建:通过收集大量图像-地址配对,利用地图中的Reverse Geocoding API将GPS坐标转换为街道级别的地址文本。为提高定位精度,团队对街道进行了语义划分,并使用道路交叉点等信息增强地址描述。
AddressCLIP实现:在原有街景-地址文本数据的基础上,研究团队改进了CLIP训练框架,借助多模态生成模型自动标注图像语义文本,并将语义文本与地址文本拼接,弥补了任务差异。引入流形学习概念,优化特征空间分布,使图像-地址文本对齐更为精确。
性能评估:AddressCLIP在不同数据集和指标上优于其他方法,尤其在推理灵活性和泛化性上表现出色。论文还展望了与多模态大模型结合的应用前景,如个性化推荐和更丰富的地理信息问答,旨在提供智能化的城市助手服务。
AddressCLIP的贡献在于其创新的定位方法和优化策略,为图像地理定位领域带来了新的突破。
原文链接
本文链接:https://kx.umi6.com/article/6360.html
转载请注明文章出处
相关推荐
换一换
一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024
2024-09-15 22:45:54
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
腾讯视频首发AI打电话功能!看剧时能直接给主角打电话
2026-01-23 18:10:36
黄仁勋:AI时代蓝领更吃香 水管工、电工能拿六位数薪水
2026-01-22 07:42:15
亚马逊又将大手笔裁员!AI被指罪魁祸首 高薪行政人员首当其冲
2026-01-23 12:56:24
国家电网的供应商冲击IPO,左手能源右手机器人
2026-01-22 13:57:42
谷歌4D世界模型来了,比SOTA快300倍!
2026-01-23 17:05:32
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
英特尔CEO陈立武:AI需求强劲 对未能完全满足市场需求感到遗憾
2026-01-23 11:53:08
商务部等9部门:推动药品零售企业监管向服务型监管、预防型监管、数智化治理转变
2026-01-22 17:04:48
AI时代教育被质疑导致“新寒门” 阿里千问回应:不存在!
2026-01-23 11:49:50
AWS上调GPU价格,国产云服务或跟进调整
2026-01-23 17:11:08
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
612 文章
397244 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41