1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GVE模型:一次学会9种视频检索技能

正文:
当前视频检索研究陷入瓶颈,主流模型在经典基准(如MSRVTT)上表现优异,但难以应对真实场景中的复杂需求,例如细粒度语义、长上下文或多模态组合查询。为突破这一局限,香港科技大学(广州)与阿里巴巴通义实验室联合提出通用视频检索(Universal Video Retrieval, UVR)概念,并构建了包含16个数据集的综合评测基准UVRB,涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对,覆盖文本、图像、视频等多种模态组合,并设计了“任务金字塔课程”训练策略,基于Qwen2.5-VL模型架构,逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化性能。

实验结果显示,GVE-7B在UVRB基准上的平均Recall@1得分为0.573,显著领先于最强基线Unite-7B(0.538)。即使是参数量较小的GVE-3B(0.544),也超过了参数量翻倍的Unite-7B,证明其优势源于高质量数据与创新训练策略,而非模型规模。

研究还揭示了当前视频检索领域的关键问题:传统基准(如MSRVTT)与真实场景相关性低,时空理解能力解耦,不同架构模型存在系统性差异。尤其值得注意的是,“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准,旨在推动视频检索从“窄域专用”迈向“通用智能”,为未来研究提供可诊断、可扩展的方法论基础。

论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve

原文链接
本文链接:https://kx.umi6.com/article/28427.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
国星宇航与腾讯云签署“星算”计划战略合作协议,携手领航AI云服务新生态
2026-06-05 18:10:37
NUS 余浩泳教授:外骨骼的轻量化与任务感知丨ICRA 2026
2026-06-03 17:35:24
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
2026-06-05 14:59:31
教你用AI一节课收17万,华尔街精英排着队付费
2026-06-07 11:28:34
祖国人公开反对AI!称AI打心底反感人类
2026-06-07 14:40:43
微信公布AI生态布局新进展:肯德基作为首批餐饮企业接入
2026-06-08 23:49:41
微信闷声赚麻了
2026-06-03 17:33:35
高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成
2026-06-08 17:40:19
微信AI自动模式开启内测!用户一句话 可直接操作小程序页面
2026-06-08 17:42:03
24小时热文
更多
扫一扫体验小程序