1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

IDEA研究院发布DINO-X目标检测视觉大模型

计算机视觉技术在现实世界中应用广泛,但过去主流的小模型难以应对多样化的长尾需求,限制了技术的广泛应用。随着Transformer架构的引入,视觉模型逐渐从小变大,从单一用途向多功能转变。

11月22日,IDEA研究院在IDEA大会上发布了最新DINO-X通用视觉大模型。该模型具备强大的物体级别理解能力,能够在无需用户提示的情况下识别几乎所有物体,包括罕见的长尾物体。在零样本评估中,DINO-X Pro在LVIS-minival数据集上取得59.7%的AP,显著优于其他现有算法。此外,DINO-X Pro在常见类别和稀有类别上分别取得了61.7%和63.3%的AP,展示了其卓越的泛化能力和广泛的适用性。

DINO-X通过大规模数据集训练,能够应对未知场景和新物体,保持高水平的检测性能。该模型还整合了多个感知头,支持分割、姿态估计等多种任务,实现了从感知到理解的逐步推进。同时,它支持文本和视觉提示优化,增强了对长尾目标的检测能力。

DINO-X的万物识别能力使其适用于开放世界环境,如具身智能、自动标注和视障人士服务等场景。例如,它可以帮助标注公司高效完成大量图像标注,降低人工标注的工作量。对于视障人士,DINO-X可以提供必要的辅助工具,提升他们的生活质量。

在自动驾驶、智能安防、工业检测等领域,DINO-X也展现出关键作用。其强大的通用检测能力使其能够识别传统模型难以检测的物体,推动产业升级和社会进步。

IDEA研究院还开放了DINO-X API,方便更多开发者和企业利用这一先进技术。相关技术细节可参阅同期发布的论文。

论文链接

https://arxiv.org/abs/2411.14347

原文链接
本文链接:https://kx.umi6.com/article/9153.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
20 余款机器人在北京玉渊潭公园亮相,不同产品可清洁路面 / 水面、救援落水人员
2024-08-21 15:04:08
DeepSeek 开源最强推理模型 R1,再震欧美同行
2025-01-21 17:40:46
谷歌上线 Portraits AI 实验项目,专家在线解决职场困惑
2025-06-06 13:30:44
24小时热文
更多
扫一扫体验小程序