1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GVE模型:一次学会9种视频检索技能

正文:
当前视频检索研究陷入瓶颈,主流模型在经典基准(如MSRVTT)上表现优异,但难以应对真实场景中的复杂需求,例如细粒度语义、长上下文或多模态组合查询。为突破这一局限,香港科技大学(广州)与阿里巴巴通义实验室联合提出通用视频检索(Universal Video Retrieval, UVR)概念,并构建了包含16个数据集的综合评测基准UVRB,涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对,覆盖文本、图像、视频等多种模态组合,并设计了“任务金字塔课程”训练策略,基于Qwen2.5-VL模型架构,逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化性能。

实验结果显示,GVE-7B在UVRB基准上的平均Recall@1得分为0.573,显著领先于最强基线Unite-7B(0.538)。即使是参数量较小的GVE-3B(0.544),也超过了参数量翻倍的Unite-7B,证明其优势源于高质量数据与创新训练策略,而非模型规模。

研究还揭示了当前视频检索领域的关键问题:传统基准(如MSRVTT)与真实场景相关性低,时空理解能力解耦,不同架构模型存在系统性差异。尤其值得注意的是,“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准,旨在推动视频检索从“窄域专用”迈向“通用智能”,为未来研究提供可诊断、可扩展的方法论基础。

论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve

原文链接
本文链接:https://kx.umi6.com/article/28427.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
2025-11-14 16:03:30
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
文远知行与吉利远程深化战略合作,2026年交付2000台前装量产Robotaxi GXR
2026-03-09 13:44:22
脉脉:AI岗位量暴涨12倍 平均月薪超6万元领跑春招市场
2026-03-09 19:05:07
千问AI眼镜全渠道暂时售罄 9日10点再次开售
2026-03-09 07:16:29
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤
2026-03-09 14:44:41
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
企业微信宣布支持接入OpenClaw
2026-03-09 19:06:03
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
全国人大代表杭迎伟:打造水务全产业链机器人矩阵
2026-03-06 19:29:11
24小时热文
更多
扫一扫体验小程序