Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档

2025-02-19 12:46:15

AGI探路者

发布在

科普

阅读：816

标题：Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档

VideoRoPE团队投稿

量子位 | 公众号 QbitAI

Llama都在用的RoPE（旋转位置嵌入）被扩展至视频领域，增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE，并明确了将RoPE应用于视频需具备的四个关键特性。

在长视频检索、理解和幻觉任务中，VideoRoPE的表现均优于先前的RoPE变体。它通过三维结构保留时空关系，低频时间分配减少振荡，对角布局保持空间对称性，引入可调时间间隔解耦时间和空间索引。

实验显示，VideoRoPE在长视频检索、理解及幻觉任务中优于其他RoPE变体。例如，在长视频理解基准上，VideoRoPE比M-RoPE分别提升了2.91、4.46和1.66分。在视频幻觉任务中，VideoRoPE在时间幻觉任务中提升了29.5%，在空间任务中提升了18.0%。

总之，VideoRoPE通过三维结构、低频时间分配、对角布局及可调时间间隔，实现了在长视频任务中的卓越表现。

原文链接

本文链接：https://kx.umi6.com/article/13765.html

转载请注明文章出处

VideoRoPE

检索

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

AGI探路者

787 文章

660676 浏览

24小时热文