3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

2025-05-04 23:17:35

Oasis

发布在

科普

阅读：1297

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98%

正文：
3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。

当前多模态大模型在超长视频训练和应用中面临两大瓶颈：难以高效训练超长视频，且处理长视频时性能与效率不佳。Video-XL-Pro创新采用“重构式token压缩”技术，仅用较少数据便在多个基准评测中超越Meta的Apollo-7B及Qwen2.5-VL-3B、InternVL2.5-4B等知名开源模型，且代码、模型、训练数据已全部开源。

核心在于“重构性token压缩技术（ReCoT）”，通过“动态token合成器（DTS）”捕捉动态运动，“语义引导掩码（SGM）”减少冗余token，使3B参数模型性能媲美7B参数模型。此外，模型引入查询选择器增强超长视频理解，并提出视频数据集剪枝策略降低计算成本。

在LongVideoBench、MLVU、Video-MME、TempCompass和VNbench等多个基准测试中，Video-XL-Pro表现卓越，尤其在MLVU、TempCompass和V-STaR上夺得第一，超越众多7B模型。在“大海捞针”测试中，模型以8192帧为输入，准确率达近99%。

Video-XL-Pro不仅在长视频理解上表现优异，还在Charades-STA和V-STaR等时间理解任务中表现出色，超越多数开源模型。目前，模型、代码、训练数据均已开源，助力长视频理解领域的发展。

论文链接：https://arxiv.org/abs/2503.18478
代码链接：https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接：https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接：https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

原文链接

本文链接：https://kx.umi6.com/article/18130.html

转载请注明文章出处

Video-XL-Pro