1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

IDEA研究院发布DINO-X目标检测视觉大模型

计算机视觉技术在现实世界中应用广泛,但过去主流的小模型难以应对多样化的长尾需求,限制了技术的广泛应用。随着Transformer架构的引入,视觉模型逐渐从小变大,从单一用途向多功能转变。

11月22日,IDEA研究院在IDEA大会上发布了最新DINO-X通用视觉大模型。该模型具备强大的物体级别理解能力,能够在无需用户提示的情况下识别几乎所有物体,包括罕见的长尾物体。在零样本评估中,DINO-X Pro在LVIS-minival数据集上取得59.7%的AP,显著优于其他现有算法。此外,DINO-X Pro在常见类别和稀有类别上分别取得了61.7%和63.3%的AP,展示了其卓越的泛化能力和广泛的适用性。

DINO-X通过大规模数据集训练,能够应对未知场景和新物体,保持高水平的检测性能。该模型还整合了多个感知头,支持分割、姿态估计等多种任务,实现了从感知到理解的逐步推进。同时,它支持文本和视觉提示优化,增强了对长尾目标的检测能力。

DINO-X的万物识别能力使其适用于开放世界环境,如具身智能、自动标注和视障人士服务等场景。例如,它可以帮助标注公司高效完成大量图像标注,降低人工标注的工作量。对于视障人士,DINO-X可以提供必要的辅助工具,提升他们的生活质量。

在自动驾驶、智能安防、工业检测等领域,DINO-X也展现出关键作用。其强大的通用检测能力使其能够识别传统模型难以检测的物体,推动产业升级和社会进步。

IDEA研究院还开放了DINO-X API,方便更多开发者和企业利用这一先进技术。相关技术细节可参阅同期发布的论文。

论文链接

https://arxiv.org/abs/2411.14347

原文链接
本文链接:https://kx.umi6.com/article/9153.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本
2024-06-23 12:49:46
吴恩达押注Agent新成果官宣!零样本标记实现图片目标检测
2025-02-07 13:55:01
谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
2024-10-20 20:01:11
字节视觉大模型负责人杨建朝今日内部官宣休息,周畅接任
2025-07-17 17:28:24
阿里开源全新图像模型Qwen-Image-Layered,可实现PS级图层精准编辑生成
2025-12-22 16:50:23
加码视觉大模型领域 安凯微拟2000万元增资视启未来 软硬件协同成发展重点
2025-09-19 21:20:51
SpaceX受邀加入开发“金穹顶”软件的行业团队
2026-04-23 03:43:35
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
Gartner:阿里云稳居中国第一 份额扩大至32.8%
2026-04-24 12:09:17
英特尔第一季度营收136亿美元 同比增长7.2%
2026-04-24 08:00:05
千问总裁吴嘉:“AI办事”对外开放 首家接入东方航空
2026-04-23 11:02:47
仅靠219个字!AI耗时12小时设计出完整CPU:传统研发需18-36个月
2026-04-24 17:26:33
中金公司:公募一季度大幅加仓偏AI产业链硬件端通信行业 减仓有色和电子
2026-04-23 09:00:20
24小时热文
更多
扫一扫体验小程序