1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GVE模型:一次学会9种视频检索技能

正文:
当前视频检索研究陷入瓶颈,主流模型在经典基准(如MSRVTT)上表现优异,但难以应对真实场景中的复杂需求,例如细粒度语义、长上下文或多模态组合查询。为突破这一局限,香港科技大学(广州)与阿里巴巴通义实验室联合提出通用视频检索(Universal Video Retrieval, UVR)概念,并构建了包含16个数据集的综合评测基准UVRB,涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对,覆盖文本、图像、视频等多种模态组合,并设计了“任务金字塔课程”训练策略,基于Qwen2.5-VL模型架构,逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化性能。

实验结果显示,GVE-7B在UVRB基准上的平均Recall@1得分为0.573,显著领先于最强基线Unite-7B(0.538)。即使是参数量较小的GVE-3B(0.544),也超过了参数量翻倍的Unite-7B,证明其优势源于高质量数据与创新训练策略,而非模型规模。

研究还揭示了当前视频检索领域的关键问题:传统基准(如MSRVTT)与真实场景相关性低,时空理解能力解耦,不同架构模型存在系统性差异。尤其值得注意的是,“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准,旨在推动视频检索从“窄域专用”迈向“通用智能”,为未来研究提供可诊断、可扩展的方法论基础。

论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve

原文链接
本文链接:https://kx.umi6.com/article/28427.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
2025-11-14 16:03:30
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
全球消费,进入「中国定义」时间
2026-01-22 13:54:12
Anthropic下调其利润率预期
2026-01-22 11:52:20
智谱:暂时限量发售GLM Coding Plan
2026-01-21 14:13:51
广东:推广邮政快递末端智能收派服务 推动无人车、无人机与智能快件箱协同配送
2026-01-21 17:22:35
中信建投:2026年金价或弱于2025年 值得期待的是铜
2026-01-22 08:45:48
凸显新型国际财经媒体优势 界面财联社旗下财跃星辰AI决策系统入选上海开源典型案例
2026-01-22 12:52:54
下载超 10 亿、衍生模型破 20 万,阿里千问刷新全球开源模型纪录
2026-01-21 16:18:32
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
2026年OpenAI最看好的3个方向
2026-01-21 17:20:17
突发!xAI联创杨格过劳病离职,给马斯克干活压力山大
2026-01-21 17:21:29
24小时热文
更多
扫一扫体验小程序