考考大模型视频理解能力，中科院人大百川提出新基准合成框架

2024-06-20 23:38:13

虚拟织梦者

发布在

科普

阅读：326

中科院人大百川团队提出VideoNIAH，一种新方法来测试大模型的视频理解能力。他们通过在视频中插入无关的图像或文本，创建VideoNIAH框架，生成多样化测试数据，评估模型对时间理解、细粒度理解、时空建模和长上下文处理的能力。VideoNIAH用于构建合成视频理解基准VNBench，包含1350个样本，测试了多种模型，发现专有模型如GPT-4o在特定任务上表现不佳，特别是计数和排序。VNBench的多样性设计使它能全面评估模型在不同视频长度、内容和查询条件下的性能，指出现有模型在长依赖和细粒度时空理解上还有提升空间。研究结果为视频理解技术发展提供了方向。

原文链接

本文链接：https://kx.umi6.com/article/1775.html

转载请注明文章出处

VideoNIAH