标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98%
正文:
3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。
当前多模态大模型在超长视频训练和应用中面临两大瓶颈:难以高效训练超长视频,且处理长视频时性能与效率不佳。Video-XL-Pro创新采用“重构式token压缩”技术,仅用较少数据便在多个基准评测中超越Meta的Apollo-7B及Qwen2.5-VL-3B、InternVL2.5-4B等知名开源模型,且代码、模型、训练数据已全部开源。
核心在于“重构性token压缩技术(ReCoT)”,通过“动态token合成器(DTS)”捕捉动态运动,“语义引导掩码(SGM)”减少冗余token,使3B参数模型性能媲美7B参数模型。此外,模型引入查询选择器增强超长视频理解,并提出视频数据集剪枝策略降低计算成本。
在LongVideoBench、MLVU、Video-MME、TempCompass和VNbench等多个基准测试中,Video-XL-Pro表现卓越,尤其在MLVU、TempCompass和V-STaR上夺得第一,超越众多7B模型。在“大海捞针”测试中,模型以8192帧为输入,准确率达近99%。
Video-XL-Pro不仅在长视频理解上表现优异,还在Charades-STA和V-STaR等时间理解任务中表现出色,超越多数开源模型。目前,模型、代码、训练数据均已开源,助力长视频理解领域的发展。
论文链接:https://arxiv.org/abs/2503.18478
代码链接:https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接:https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接:https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training
.png)

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21