1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GVE模型:一次学会9种视频检索技能

正文:
当前视频检索研究陷入瓶颈,主流模型在经典基准(如MSRVTT)上表现优异,但难以应对真实场景中的复杂需求,例如细粒度语义、长上下文或多模态组合查询。为突破这一局限,香港科技大学(广州)与阿里巴巴通义实验室联合提出通用视频检索(Universal Video Retrieval, UVR)概念,并构建了包含16个数据集的综合评测基准UVRB,涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对,覆盖文本、图像、视频等多种模态组合,并设计了“任务金字塔课程”训练策略,基于Qwen2.5-VL模型架构,逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化性能。

实验结果显示,GVE-7B在UVRB基准上的平均Recall@1得分为0.573,显著领先于最强基线Unite-7B(0.538)。即使是参数量较小的GVE-3B(0.544),也超过了参数量翻倍的Unite-7B,证明其优势源于高质量数据与创新训练策略,而非模型规模。

研究还揭示了当前视频检索领域的关键问题:传统基准(如MSRVTT)与真实场景相关性低,时空理解能力解耦,不同架构模型存在系统性差异。尤其值得注意的是,“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准,旨在推动视频检索从“窄域专用”迈向“通用智能”,为未来研究提供可诊断、可扩展的方法论基础。

论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve

原文链接
本文链接:https://kx.umi6.com/article/28427.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
海亮科服成为浙江首家教育科技独角兽
2026-04-23 16:17:26
豆神教育联合微软Azure推出AI短剧平台
2026-04-24 09:05:36
英特尔CEO:CPU正重归AI核心地位
2026-04-24 11:08:56
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
谷歌计划向Anthropic投资至多400亿美元 支持后者大幅扩展算力
2026-04-25 00:42:43
仅靠219个字!AI耗时12小时设计出完整CPU:传统研发需18-36个月
2026-04-24 17:26:33
昆仑万维2025年营收同比增长44.78%至81.98亿 “4+3”战略构建AI Native平台经济新范式
2026-04-23 21:31:07
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
时隔6个月 英伟达总市值再次突破5万亿美元
2026-04-24 23:41:21
SpaceX受邀加入开发“金穹顶”软件的行业团队
2026-04-23 03:43:35
英特尔CEO:半导体行业整体潜在市场规模已逼近1万亿美元
2026-04-24 12:11:28
24小时热文
更多
扫一扫体验小程序