标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet,名为HourVideo,用于评估多模态模型对长达一小时视频的理解能力。
HourVideo包含500个来自Ego4D数据集的第一人称视角视频,涉及77种日常活动。评测显示,人类专家水平显著优于当前最先进的模型Gemini Pro 1.5(85.0%对37.3%)。
HourVideo的设计旨在解决现有视频基准测试的局限性,特别是对长视频的理解能力评估不足的问题。数据集包括总结、感知、视觉推理和导航四大类任务,共18个子任务。
HourVideo的数据集生成经过严格的流程,包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化等步骤。数据集涵盖77种日常生活场景,共有500个视频,总计381小时,每个视频约有26个高质量五选一题,共计12976个问题。
评估结果显示,尽管原生多模态模型在HourVideo上的表现最佳,但也远低于人类专家水平。团队计划未来扩展基准测试,涵盖更多视频类型和模态,同时关注隐私和伦理问题。
HourVideo项目由Keshigeyan Chandrasegaran和Agrim Gupta共同主导,团队成员还包括李飞飞和吴佳俊。李飞飞是斯坦福以人为本人工智能研究院院长,吴佳俊则是斯坦福大学助理教授。
原文链接
本文链接:https://kx.umi6.com/article/8521.html
转载请注明文章出处
相关推荐
.png)
换一换
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025-08-27 12:03:30
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
2024-10-28 17:58:51
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
569 文章
299928 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29