1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet,名为HourVideo,用于评估多模态模型对长达一小时视频的理解能力。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频,涉及77种日常活动。评测显示,人类专家水平显著优于当前最先进的模型Gemini Pro 1.5(85.0%对37.3%)。

HourVideo的设计旨在解决现有视频基准测试的局限性,特别是对长视频的理解能力评估不足的问题。数据集包括总结、感知、视觉推理和导航四大类任务,共18个子任务。

HourVideo的数据集生成经过严格的流程,包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化等步骤。数据集涵盖77种日常生活场景,共有500个视频,总计381小时,每个视频约有26个高质量五选一题,共计12976个问题。

评估结果显示,尽管原生多模态模型在HourVideo上的表现最佳,但也远低于人类专家水平。团队计划未来扩展基准测试,涵盖更多视频类型和模态,同时关注隐私和伦理问题。

HourVideo项目由Keshigeyan Chandrasegaran和Agrim Gupta共同主导,团队成员还包括李飞飞和吴佳俊。李飞飞是斯坦福以人为本人工智能研究院院长,吴佳俊则是斯坦福大学助理教授。

原文链接
本文链接:https://kx.umi6.com/article/8521.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
Nano Banana Pro 新对手,智谱联合华为开源首个国产芯片训练的多模态 SOTA 模型 GLM-Image
2026-01-14 10:24:53
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
2025-02-19 12:46:15
李飞飞:高校学生应追逐AI“北极星”问题
2025-07-08 16:49:13
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
2025-03-27 13:47:30
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025-08-27 12:03:30
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
全新创作平台SkyReels来了!一张画布+对话框包办AI视频创作流程
2025-11-04 13:13:09
24小时热文
更多
扫一扫体验小程序