1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GVE模型:一次学会9种视频检索技能

正文:
当前视频检索研究陷入瓶颈,主流模型在经典基准(如MSRVTT)上表现优异,但难以应对真实场景中的复杂需求,例如细粒度语义、长上下文或多模态组合查询。为突破这一局限,香港科技大学(广州)与阿里巴巴通义实验室联合提出通用视频检索(Universal Video Retrieval, UVR)概念,并构建了包含16个数据集的综合评测基准UVRB,涵盖多任务与多领域场景。

团队通过V-SynFlow流程合成了155万条高质量视频-语言训练对,覆盖文本、图像、视频等多种模态组合,并设计了“任务金字塔课程”训练策略,基于Qwen2.5-VL模型架构,逐步提升模型从基础感知到高阶推理的能力。由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化性能。

实验结果显示,GVE-7B在UVRB基准上的平均Recall@1得分为0.573,显著领先于最强基线Unite-7B(0.538)。即使是参数量较小的GVE-3B(0.544),也超过了参数量翻倍的Unite-7B,证明其优势源于高质量数据与创新训练策略,而非模型规模。

研究还揭示了当前视频检索领域的关键问题:传统基准(如MSRVTT)与真实场景相关性低,时空理解能力解耦,不同架构模型存在系统性差异。尤其值得注意的是,“部分相关视频检索”任务被证明是评估模型通用性的核心指标。

团队已开源GVE模型及UVRB基准,旨在推动视频检索从“窄域专用”迈向“通用智能”,为未来研究提供可诊断、可扩展的方法论基础。

论文链接:https://arxiv.org/abs/2510.27571
项目主页:https://gzn00417.github.io/GVE/
模型和数据:https://huggingface.co/collections/Alibaba-NLP/gve

原文链接
本文链接:https://kx.umi6.com/article/28427.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
2025-03-09 13:40:19
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
2025-11-14 16:03:30
阿里秘密启动“千问”项目 将推出国际版与ChatGPT竞争
2025-11-13 16:12:52
具身智能公司 Dexmal 原力灵机融资近 10 亿元,阿里巴巴、蔚来资本分别领投
2025-11-14 11:54:32
阿里巴巴港股午后涨幅扩大至3% 公司已秘密启动“千问”项目 全面对标ChatGPT
2025-11-13 15:09:36
xAI据悉完成150亿美元融资 马斯克回应:假消息!
2025-11-14 01:30:17
Perplexity CEO 斯里尼瓦斯警告:“AI 伴侣”会使大脑更易被操控
2025-11-13 17:10:21
稚晖君最新188机器人,阅后撤回了
2025-11-14 16:04:42
阿里云百炼官宣通义千问3-Max模型降价
2025-11-13 23:26:41
欧盟将成立信息监管新机构 并加大对数字平台调查力度
2025-11-13 16:15:04
Tachyum 晒 2nm Prodigy 通用处理器设计:宣称推理性能达英伟达 Rubin 平台 20+ 倍
2025-11-13 16:10:34
雷军下铺的兄弟,创业家务机器人
2025-11-14 10:48:35
倪光南院士:80%的美国AI创新企业用中国开源模型
2025-11-14 11:55:38
24小时热文
更多
扫一扫体验小程序