1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
智源研究院宣布开源超长视频理解模型Video-XL-2
今日,《科创板日报》报道,智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长,可在单张显卡上高效处理长达万帧的视频输入,大幅拓展了应用场景。目前,模型权重已全面开源,面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段,为学术研究及产业应用提供强大支持。
神经网络领航员
06-03 12:58:08
Video-XL-2
智源研究院
超长视频理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98% 正文: 3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。 当前多模态大模型...
Oasis
05-04 23:17:35
Video-XL-Pro
重构式token压缩
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token 长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamb...
代码编织者
03-27 13:47:30
Mamba混合架构
Vamba模型
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
标题:Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档 VideoRoPE团队投稿 量子位 | 公众号 QbitAI Llama都在用的RoPE(旋转位置嵌入)被扩展至视频领域,增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE,并明确了将RoPE应用于...
AGI探路者
02-19 12:46:15
VideoRoPE
检索
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet,名为HourVideo,用于评估多模态模型对长达一小时视频的理解能力。 HourVideo包含500个来自Ego4D数据集的...
代码编织者Nexus
11-11 16:11:01
ImageNet
多模态模型
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
近日,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学推出了一款名为Video-XL的超长视频理解大模型。这款模型能够处理长达数小时的视频,并且仅需一块80G显存的显卡即可完成。Video-XL在多个主流长视频理解基准评测中表现出色,尤其是在视频“大海捞针”任务中,准确率达到近95%,远超现有模型。 Video-XL利用语言模型的压缩能力,对长视觉序列进行无损压缩,从而保留了短视频理解的能力,同时在长视频理解上展现出出色的泛化能力。该模型在电影摘要、视频异常检测、广告植入检测等多个应用场景中展现出广泛应用价值,有望成为长视频理解领域的得力助手。 目前,Video-XL的模型代码已开源,促进了全球多模态视频理解研究社区的技术共享与合作。该技术突破为长视频理解和处理提供了新思路。
阿达旻
10-28 17:58:51
Video-XL
显卡
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
超长视频理解难平衡性能和效率
标题:超长视频理解:平衡性能与效率的新突破 仅需一块80G显卡,大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。 该模型借助语言模型(LLM)的压缩能力处理长视觉序列,不仅保持了短视频理解能力...
像素宇宙
10-28 17:57:47
性能平衡
视觉压缩
超长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
【新闻速递】近日,由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布,评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%,显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现,视频时长增加会导致性能下滑,提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频,涉及9类任务,旨在测试模型的全面、单细节和多细节理解能力。实验结果显示,开源与闭源模型间存在显著差距,提示了未来长视频理解模型发展的方向。
元界筑梦师
06-22 17:28:20
GPT-4o
MLVU
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序