1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:空间智能版ImageNet来了!李飞飞吴佳俊团队出品

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

斯坦福大学李飞飞和吴佳俊团队发布了空间智能版ImageNet,名为HourVideo,用于评估多模态模型对长达一小时视频的理解能力。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频,涉及77种日常活动。评测显示,人类专家水平显著优于当前最先进的模型Gemini Pro 1.5(85.0%对37.3%)。

HourVideo的设计旨在解决现有视频基准测试的局限性,特别是对长视频的理解能力评估不足的问题。数据集包括总结、感知、视觉推理和导航四大类任务,共18个子任务。

HourVideo的数据集生成经过严格的流程,包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化等步骤。数据集涵盖77种日常生活场景,共有500个视频,总计381小时,每个视频约有26个高质量五选一题,共计12976个问题。

评估结果显示,尽管原生多模态模型在HourVideo上的表现最佳,但也远低于人类专家水平。团队计划未来扩展基准测试,涵盖更多视频类型和模态,同时关注隐私和伦理问题。

HourVideo项目由Keshigeyan Chandrasegaran和Agrim Gupta共同主导,团队成员还包括李飞飞和吴佳俊。李飞飞是斯坦福以人为本人工智能研究院院长,吴佳俊则是斯坦福大学助理教授。

原文链接
本文链接:https://kx.umi6.com/article/8521.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了
2025-07-28 10:08:25
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
2025-07-27 19:02:28
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
2025-05-04 23:17:35
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
24小时热文
更多
扫一扫体验小程序