1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档

VideoRoPE团队投稿

量子位 | 公众号 QbitAI

Llama都在用的RoPE(旋转位置嵌入)被扩展至视频领域,增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE,并明确了将RoPE应用于视频需具备的四个关键特性。

在长视频检索、理解和幻觉任务中,VideoRoPE的表现均优于先前的RoPE变体。它通过三维结构保留时空关系,低频时间分配减少振荡,对角布局保持空间对称性,引入可调时间间隔解耦时间和空间索引。

实验显示,VideoRoPE在长视频检索、理解及幻觉任务中优于其他RoPE变体。例如,在长视频理解基准上,VideoRoPE比M-RoPE分别提升了2.91、4.46和1.66分。在视频幻觉任务中,VideoRoPE在时间幻觉任务中提升了29.5%,在空间任务中提升了18.0%。

总之,VideoRoPE通过三维结构、低频时间分配、对角布局及可调时间间隔,实现了在长视频任务中的卓越表现。

原文链接
本文链接:https://kx.umi6.com/article/13765.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
2025-02-19 12:46:15
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-23 16:02:10
研究发现:强迫AI大量阅读社交媒体垃圾帖 会造成不可逆的脑损伤
2025-10-22 23:54:44
小米汽车副总裁李肖爽否认宣传“SOS 1秒接通”:系造谣诋毁 将追责
2025-10-23 08:59:40
荣耀设立20亿激励资源 提升智能体和MagicOS生态体验力度
2025-10-23 18:14:34
通用汽车放大招:谷歌AI助手明年上车+高级智驾将解放手眼
2025-10-23 01:55:15
OpenAI、甲骨文宣布“星际之门”数据中心选址威斯康星州
2025-10-23 13:07:05
OpenAI掌舵人三年演讲梳理:一文读懂Altman
2025-10-22 18:50:58
24小时热文
更多
扫一扫体验小程序