1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AI模仿人类看漫画,视频大模型时序定位能力新SOTA

用看漫画的方式,大幅提升视频大模型时序定位能力!

方法名为NumPro,无需训练,通过数字视觉提示就能增强。就像漫画中用编号的画格引导读者按顺序理解故事,将视觉内容与清晰的时间线联系起来一样。NumPro通过在视频帧上添加独特的数字标识符,将视频时序定位转化为直观的“翻阅漫画”式过程,使Vid-LLMs能够轻松“读取”事件时间线,准确关联视觉内容与相应的时序信息。

实验中,NumPro显著提升了视频时序定位能力,在多个基准上超越此前SOTA,且对模型通用视频理解能力影响较小。这项工作由东南大学、马克斯·普朗克信息学研究所、腾讯微信团队、加州大学伯克利分校的研究人员共同完成。

NumPro的核心创新在于:

  1. 无需训练设置:在无训练设置下,NumPro直接为每个视频帧标记对应的帧号。借助Vid-LLMs内置的OCR能力,模型能够通过与视觉内容相关联的帧号“读取”时间线。为明确添加数字的目的,在每个事件查询前添加简单指令,告知模型帧号的含义。

  2. 微调优化设置:为进一步提升性能,NumPro-FT在经过NumPro增强数据集上对Vid-LLMs进行微调。此过程将帧号与训练数据中的时间跨度对齐,将时序定位能力嵌入模型的学习表示中。微调时,冻结视觉编码器,仅对视觉投影仪和大语言模型(LLM)组件进行优化,并采用低秩适应(LoRA)技术调整LLM,有效减少参数数量和训练开销。

研究团队还从字体大小、颜色和位置三个关键因素对NumPro进行了优化。通过基于CLIP的实验,使用Number Accuracy和Caption Accuracy两个指标平衡数字的可识别性和对视觉内容的干扰。最终确定了字体大小为40、颜色为红色、位置在右下角的最优设计。

在标准VTG基准测试中,NumPro表现卓越。在Moment Retrieval任务中,无需训练的NumPro使Vid-LLMs性能接近或超越以往最优水平。而经过NumPro-FT微调后,LongVA-7B-DPO在Charades-STA和ActivityNet数据集上的多个指标上均大幅超越现有SOTA。

NumPro不仅在领先模型上效果显著,对多种Vid-LLMs也具有广泛的适用性。应用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均带来了显著的性能提升。此外,在与微调结合时,NumPro-FT始终优于传统微调方法,尤其在较长视频数据集上表现出色。

将NumPro集成到通用视频问答任务中,发现其对一般理解指标影响极小,在保持强大通用视频理解能力的同时,显著提升了视频时序定位能力。

论文连接:https://arxiv.org/pdf/2411.10332
代码仓库:https://github.com/yongliang-wu/NumPro

— 完 —


以上内容已精简至约500字,保留了主要信息和结构。

原文链接
本文链接:https://kx.umi6.com/article/9169.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
穿过DeepSeek的窄门
2025-05-07 09:06:34
国产文生视频大模型 Vidu 将迎更新:支持生成 32 秒内容、音视频合成
2024-06-07 15:06:57
生数科技发布高可控视频大模型 Vidu Q1:可精准调整所有动作行为
2025-03-29 18:54:11
全球首发!Vidu 让任意主体保持一致,视频生成进入新阶段!
2024-09-12 15:51:26
生数科技CEO唐家渝:“人人可用”的视频大模型在2025年将成为现实|AI领先者心声・2025
2025-01-09 19:06:04
“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成
2024-06-06 19:58:59
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
AI Agent的门票 MiniMax想先打下来
2026-06-04 17:17:31
智启新程 生态同行:2026高通汽车技术与合作峰会展现AI汽车新图景
2026-06-05 19:20:05
Hinton吹哨了:AI已经有意识!
2026-06-06 15:51:41
全球首个!材科源图发布有机高分子应用智能体
2026-06-04 22:24:57
微信公布AI生态布局新进展:肯德基作为首批餐饮企业接入
2026-06-08 23:49:41
全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住
2026-06-05 15:01:09
24小时热文
更多
扫一扫体验小程序