IDEA研究院发布DINO-X目标检测视觉大模型
计算机视觉技术在现实世界中应用广泛,但过去主流的小模型难以应对多样化的长尾需求,限制了技术的广泛应用。随着Transformer架构的引入,视觉模型逐渐从小变大,从单一用途向多功能转变。
11月22日,IDEA研究院在IDEA大会上发布了最新DINO-X通用视觉大模型。该模型具备强大的物体级别理解能力,能够在无需用户提示的情况下识别几乎所有物体,包括罕见的长尾物体。在零样本评估中,DINO-X Pro在LVIS-minival数据集上取得59.7%的AP,显著优于其他现有算法。此外,DINO-X Pro在常见类别和稀有类别上分别取得了61.7%和63.3%的AP,展示了其卓越的泛化能力和广泛的适用性。
DINO-X通过大规模数据集训练,能够应对未知场景和新物体,保持高水平的检测性能。该模型还整合了多个感知头,支持分割、姿态估计等多种任务,实现了从感知到理解的逐步推进。同时,它支持文本和视觉提示优化,增强了对长尾目标的检测能力。
DINO-X的万物识别能力使其适用于开放世界环境,如具身智能、自动标注和视障人士服务等场景。例如,它可以帮助标注公司高效完成大量图像标注,降低人工标注的工作量。对于视障人士,DINO-X可以提供必要的辅助工具,提升他们的生活质量。
在自动驾驶、智能安防、工业检测等领域,DINO-X也展现出关键作用。其强大的通用检测能力使其能够识别传统模型难以检测的物体,推动产业升级和社会进步。
IDEA研究院还开放了DINO-X API,方便更多开发者和企业利用这一先进技术。相关技术细节可参阅同期发布的论文。
论文链接
https://arxiv.org/abs/2411.14347
原文链接
本文链接:https://kx.umi6.com/article/9153.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
2024-10-20 20:01:11
IDEA研究院发布DINO-X目标检测视觉大模型
2024-11-22 20:10:15
字节视觉大模型负责人杨建朝今日内部官宣休息,周畅接任
2025-07-17 17:28:24
无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本
2024-06-23 12:49:46
吴恩达押注Agent新成果官宣!零样本标记实现图片目标检测
2025-02-07 13:55:01
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
两部门要求推进“人工智能 +”能源高质量发展,虚拟电厂概念相关企业直线涨停
2025-09-08 10:55:15
华为全新小艺拟人化实时音视频对话功能适配机型公布,含 Mate XTs 三折叠等
2025-09-07 14:45:54
支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-05 21:25:03
智谱推出“Claude API 用户特别搬家计划”:替换 API URL 即可无缝切换
2025-09-05 18:22:23
通用人工智能就在身边,为何我们感知却不明显?
2025-09-08 09:58:00
赋能赋值赋智作用凸显 工业互联网与人工智能加速融合
2025-09-08 07:53:42
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
514 文章
184900 浏览
24小时热文
更多

-
2025-09-08 12:58:45
-
2025-09-08 12:57:57
-
2025-09-08 12:57:41