用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

2025-11-14 16:03:30

虚拟织梦者

发布在

科普

阅读：726

标题：GVE模型：一次学会9种视频检索技能

正文：
当前视频检索研究陷入瓶颈，主流模型在经典基准（如MSRVTT）上表现优异，但难以应对真实场景中的复杂需求，例如细粒度语义、长上下文或多模态组合查询。为突破这一局限，香港科技大学（广州）与阿里巴巴通义实验室联合提出通用视频检索（Universal Video Retrieval, UVR）概念，并构建了包含16个数据集的综合评测基准UVRB，涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对，覆盖文本、图像、视频等多种模态组合，并设计了“任务金字塔课程”训练策略，基于Qwen2.5-VL模型架构，逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE（含3B与7B两个版本），在严格零样本设置下全面超越现有14个主流模型，展现出卓越的泛化性能。

实验结果显示，GVE-7B在UVRB基准上的平均Recall@1得分为0.573，显著领先于最强基线Unite-7B（0.538）。即使是参数量较小的GVE-3B（0.544），也超过了参数量翻倍的Unite-7B，证明其优势源于高质量数据与创新训练策略，而非模型规模。

研究还揭示了当前视频检索领域的关键问题：传统基准（如MSRVTT）与真实场景相关性低，时空理解能力解耦，不同架构模型存在系统性差异。尤其值得注意的是，“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准，旨在推动视频检索从“窄域专用”迈向“通用智能”，为未来研究提供可诊断、可扩展的方法论基础。

论文链接：https://arxiv.org/abs/2510.27571
项目主页：https://gzn00417.github.io/GVE/
模型和数据：https://huggingface.co/collections/Alibaba-NLP/gve

原文链接

本文链接：https://kx.umi6.com/article/28427.html

转载请注明文章出处

GVE模型