一张图实现街道级定位的大模型AddressCLIP入选ECCV2024
AddressCLIP项目组由中科院自动化所和阿里云共同研发,推出了一款端到端图像地理定位大模型,仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP,基于CLIP架构,论文《Empowering Vision-Language Models for City-wide Image Address Localization》已被ECCV2024收录。
传统图像位置识别侧重于通过图像检索确定GPS坐标,但这种方式依赖庞大数据库,难以本地化部署。AddressCLIP提出了一种更易用的定位方法,其效果通过对比图展示了端到端定位与图像检索的区别。为实现这一目标,研究团队从构建数据集和定制化模型训练两方面着手。
数据集构建:通过收集大量图像-地址配对,利用地图中的Reverse Geocoding API将GPS坐标转换为街道级别的地址文本。为提高定位精度,团队对街道进行了语义划分,并使用道路交叉点等信息增强地址描述。
AddressCLIP实现:在原有街景-地址文本数据的基础上,研究团队改进了CLIP训练框架,借助多模态生成模型自动标注图像语义文本,并将语义文本与地址文本拼接,弥补了任务差异。引入流形学习概念,优化特征空间分布,使图像-地址文本对齐更为精确。
性能评估:AddressCLIP在不同数据集和指标上优于其他方法,尤其在推理灵活性和泛化性上表现出色。论文还展望了与多模态大模型结合的应用前景,如个性化推荐和更丰富的地理信息问答,旨在提供智能化的城市助手服务。
AddressCLIP的贡献在于其创新的定位方法和优化策略,为图像地理定位领域带来了新的突破。
原文链接
本文链接:https://kx.umi6.com/article/6360.html
转载请注明文章出处
相关推荐
.png)
换一换
一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024
2024-09-15 22:45:54
具身大脑公司「星源智」完成2亿元天使轮融资
2025-09-10 16:38:25
AI终局之战:美国目前赢了技术,但中国会赢下未来?
2025-09-09 16:19:36
阿联酋基于阿里巴巴Qwen 2.5推出低成本AI推理模型 宣称“性价比”超同行20倍
2025-09-09 22:23:41
杭州:对采用主动设计等方式组织实施的人工智能终端领域重大项目 最高补助1000万元
2025-09-09 14:23:03
腾讯发布AI CLI工具CodeBuddy Code
2025-09-09 14:24:09
AI教父自曝被前女友用AI分手 曾用ChatGPT证明他是“卑鄙小人”
2025-09-09 19:20:13
苹果早该听劝,真诚才是唯一必杀技
2025-09-10 10:31:54
上半年日本最赚钱的AI产品Top10,近一半来自中国?
2025-09-09 22:22:21
4550亿美元订单震撼市场 甲骨文开盘飙升32%市值猛增2200亿美元
2025-09-10 21:45:25
最薄iPhone 登场,eSIM 正式落地
2025-09-10 05:28:36
市场监管总局:积极推动老旧电梯等特种设备更新改造以及电动自行车、家电等消费品以旧换新
2025-09-09 21:25:12
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
2025-09-10 13:34:35
482 文章
175353 浏览
24小时热文
更多

-
2025-09-10 23:43:54
-
2025-09-10 22:43:17
-
2025-09-10 21:46:32