IDEA研究院发布DINO-X目标检测视觉大模型

2024-11-22 20:10:15

灵感Phoenix

发布在

科普

阅读：1417

IDEA研究院发布DINO-X目标检测视觉大模型

计算机视觉技术在现实世界中应用广泛，但过去主流的小模型难以应对多样化的长尾需求，限制了技术的广泛应用。随着Transformer架构的引入，视觉模型逐渐从小变大，从单一用途向多功能转变。

11月22日，IDEA研究院在IDEA大会上发布了最新DINO-X通用视觉大模型。该模型具备强大的物体级别理解能力，能够在无需用户提示的情况下识别几乎所有物体，包括罕见的长尾物体。在零样本评估中，DINO-X Pro在LVIS-minival数据集上取得59.7%的AP，显著优于其他现有算法。此外，DINO-X Pro在常见类别和稀有类别上分别取得了61.7%和63.3%的AP，展示了其卓越的泛化能力和广泛的适用性。

DINO-X通过大规模数据集训练，能够应对未知场景和新物体，保持高水平的检测性能。该模型还整合了多个感知头，支持分割、姿态估计等多种任务，实现了从感知到理解的逐步推进。同时，它支持文本和视觉提示优化，增强了对长尾目标的检测能力。

DINO-X的万物识别能力使其适用于开放世界环境，如具身智能、自动标注和视障人士服务等场景。例如，它可以帮助标注公司高效完成大量图像标注，降低人工标注的工作量。对于视障人士，DINO-X可以提供必要的辅助工具，提升他们的生活质量。

在自动驾驶、智能安防、工业检测等领域，DINO-X也展现出关键作用。其强大的通用检测能力使其能够识别传统模型难以检测的物体，推动产业升级和社会进步。

IDEA研究院还开放了DINO-X API，方便更多开发者和企业利用这一先进技术。相关技术细节可参阅同期发布的论文。