中科院人大百川团队提出VideoNIAH,一种新方法来测试大模型的视频理解能力。他们通过在视频中插入无关的图像或文本,创建VideoNIAH框架,生成多样化测试数据,评估模型对时间理解、细粒度理解、时空建模和长上下文处理的能力。VideoNIAH用于构建合成视频理解基准VNBench,包含1350个样本,测试了多种模型,发现专有模型如GPT-4o在特定任务上表现不佳,特别是计数和排序。VNBench的多样性设计使它能全面评估模型在不同视频长度、内容和查询条件下的性能,指出现有模型在长依赖和细粒度时空理解上还有提升空间。研究结果为视频理解技术发展提供了方向。
原文链接
本文链接:https://kx.umi6.com/article/1775.html
转载请注明文章出处
相关推荐
.png)
换一换
考考大模型视频理解能力,中科院人大百川提出新基准合成框架
2024-06-20 23:38:13
2025世界智能产业博览会今天开幕
2025-09-05 08:16:16
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
AI生成苹果Metal内核,PyTorch推理速度提升87%
2025-09-05 11:17:03
Anthropic突然封锁中国企业,我们该从中学到什么?
2025-09-06 11:33:57
蚂蚁国际推出 AI 智能体支付解决方案,可识别用户支付意图、全流程追溯询证
2025-09-05 15:20:28
新华三集团与重庆水务环境集团签订战略合作协议
2025-09-06 10:33:40
月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API
2025-09-05 12:17:23
腾讯大笔资金加码AI 曝一业务关停 相关视频号已被注销 官网显示“当前服务升级维护中”
2025-09-05 12:21:09
AI 的下一个战场:小模型崛起
2025-09-05 21:26:34
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
美国AI巨头Anthropic全球封杀中国控股公司!无论何地一律禁用Claude等
2025-09-05 18:23:30
国内首个AI计算开放架构发布
2025-09-06 14:35:37
476 文章
164429 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24