视频推理界的“福尔摩斯测试”：所有大模型，统统不及格

2025-05-29 18:38:19

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

蝶舞CyberSwirl

发布在

科普

阅读：98

新的Benchmark Video-Holmes让大模型在复杂视频推理中全部不及格。这项由腾讯ARC Lab和香港城市大学合作推出的研究，被称为视频推理界的“福尔摩斯测试”。它通过复杂的推理任务，如“找出凶手”或“解析作案意图”，揭示了现有大模型在视频推理能力上的局限性。

传统视频推理基准往往过于简单，无法有效区分推理模型与非推理模型。Video-Holmes则设计了270部1-5分钟的“推理短电影”，并提出了7种高推理要求的单选题，要求模型整合分散的信息得出结论。例如，一个案例中模型需推理出男人死亡的真正原因是“过度使用超能力”。

测试显示，包括Gemini-2.5-Pro在内的所有大模型均未达标。即使是表现最好的模型，准确率也仅为45%。此外，Video-Holmes还能体现推理模型与非推理版本间的性能差距，如SEED-Bench-R1比Qwen2.5-VL-7B提升了5个百分点，Gemini-2.0-Thinking则比Gemini-2.0高出12个百分点。

研究指出，现有模型虽能感知视觉信息，但在线索串联和关键信息捕捉方面存在不足。Video-Holmes的标注、构建、测试及代码均已开源，感兴趣的开发者可通过提供的代码下载和测试模型。团队还提供了生成问题和分析推理过程的相关工具。这一Benchmark为视频推理领域提供了更具挑战性的测试标准。

原文链接

本文链接：https://kx.umi6.com/article/19469.html

转载请注明文章出处

Video-Holmes