新的Benchmark Video-Holmes让大模型在复杂视频推理中全部不及格。这项由腾讯ARC Lab和香港城市大学合作推出的研究,被称为视频推理界的“福尔摩斯测试”。它通过复杂的推理任务,如“找出凶手”或“解析作案意图”,揭示了现有大模型在视频推理能力上的局限性。
传统视频推理基准往往过于简单,无法有效区分推理模型与非推理模型。Video-Holmes则设计了270部1-5分钟的“推理短电影”,并提出了7种高推理要求的单选题,要求模型整合分散的信息得出结论。例如,一个案例中模型需推理出男人死亡的真正原因是“过度使用超能力”。
测试显示,包括Gemini-2.5-Pro在内的所有大模型均未达标。即使是表现最好的模型,准确率也仅为45%。此外,Video-Holmes还能体现推理模型与非推理版本间的性能差距,如SEED-Bench-R1比Qwen2.5-VL-7B提升了5个百分点,Gemini-2.0-Thinking则比Gemini-2.0高出12个百分点。
研究指出,现有模型虽能感知视觉信息,但在线索串联和关键信息捕捉方面存在不足。Video-Holmes的标注、构建、测试及代码均已开源,感兴趣的开发者可通过提供的代码下载和测试模型。团队还提供了生成问题和分析推理过程的相关工具。这一Benchmark为视频推理领域提供了更具挑战性的测试标准。
原文链接
本文链接:https://kx.umi6.com/article/19469.html
转载请注明文章出处
相关推荐
.png)
换一换
毕马威报告:中国银行业在大模型落地应用方面走在前列
2025-06-23 16:27:32
瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊
2025-05-21 13:03:31
2秒吃透一道高数大题!华为揭秘7180亿参数昇腾大模型
2025-05-30 13:50:18
426 文章
80076 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13