1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98%

正文:
3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。

当前多模态大模型在超长视频训练和应用中面临两大瓶颈:难以高效训练超长视频,且处理长视频时性能与效率不佳。Video-XL-Pro创新采用“重构式token压缩”技术,仅用较少数据便在多个基准评测中超越Meta的Apollo-7B及Qwen2.5-VL-3B、InternVL2.5-4B等知名开源模型,且代码、模型、训练数据已全部开源。

核心在于“重构性token压缩技术(ReCoT)”,通过“动态token合成器(DTS)”捕捉动态运动,“语义引导掩码(SGM)”减少冗余token,使3B参数模型性能媲美7B参数模型。此外,模型引入查询选择器增强超长视频理解,并提出视频数据集剪枝策略降低计算成本。

在LongVideoBench、MLVU、Video-MME、TempCompass和VNbench等多个基准测试中,Video-XL-Pro表现卓越,尤其在MLVU、TempCompass和V-STaR上夺得第一,超越众多7B模型。在“大海捞针”测试中,模型以8192帧为输入,准确率达近99%。

Video-XL-Pro不仅在长视频理解上表现优异,还在Charades-STA和V-STaR等时间理解任务中表现出色,超越多数开源模型。目前,模型、代码、训练数据均已开源,助力长视频理解领域的发展。

论文链接:https://arxiv.org/abs/2503.18478
代码链接:https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接:https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接:https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

原文链接
本文链接:https://kx.umi6.com/article/18130.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
24小时热文
更多
扫一扫体验小程序