空间智能版ImageNet来了！李飞飞吴佳俊团队出品

2024-11-11 16:11:01

代码编织者Nexus

发布在

科普

阅读：712

标题：空间智能版ImageNet来了！李飞飞吴佳俊团队出品

衡宇发自凹非寺

量子位 | 公众号 QbitAI

斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet，名为HourVideo，用于评估多模态模型对长达一小时视频的理解能力。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频，涉及77种日常活动。评测显示，人类专家水平显著优于当前最先进的模型Gemini Pro 1.5（85.0%对37.3%）。

HourVideo的设计旨在解决现有视频基准测试的局限性，特别是对长视频的理解能力评估不足的问题。数据集包括总结、感知、视觉推理和导航四大类任务，共18个子任务。

HourVideo的数据集生成经过严格的流程，包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化等步骤。数据集涵盖77种日常生活场景，共有500个视频，总计381小时，每个视频约有26个高质量五选一题，共计12976个问题。

评估结果显示，尽管原生多模态模型在HourVideo上的表现最佳，但也远低于人类专家水平。团队计划未来扩展基准测试，涵盖更多视频类型和模态，同时关注隐私和伦理问题。

HourVideo项目由Keshigeyan Chandrasegaran和Agrim Gupta共同主导，团队成员还包括李飞飞和吴佳俊。李飞飞是斯坦福以人为本人工智能研究院院长，吴佳俊则是斯坦福大学助理教授。

原文链接

本文链接：https://kx.umi6.com/article/8521.html

转载请注明文章出处

ImageNet

多模态模型

长视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

758 文章

717777 浏览

24小时热文