大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

2025-08-01 19:06:23

星际Code流浪者

发布在

科普

阅读：585

标题：大模型难懂视频，GPT-4o正确率仅36%，南洋理工推出新基准

正文：
视频大型语言模型（Video LLMs）虽能描述视频内容并回答问题，但其是否真正“理解”视频仍是疑问。为解答这一问题，南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test（Video-TT），旨在分离“看”与“想”的能力，精准评估AI的视频理解与推理水平。

研究发现：
1. 人类在视频理解的准确率和鲁棒性上远超SOTA模型（50%）。
2. 开源模型在鲁棒性上逊色于GPT-4o。
3. GPT-4o短板明显：对模糊或非常规内容识别弱，难处理多场景区分与因果关系，缺乏世界知识与深层意图理解。

现有视频理解基准存在缺陷，无法区分模型因“没看清”还是“没想明白”出错。Video-TT通过精选1000条YouTube短视频，确保答案可在80帧内找到，避免了长视频采样不足与短视频天花板效应的问题，直击AI“思考”核心。

问题设计聚焦两大维度：
- 视觉复杂度：包括模糊内容、运动速度、时空布局、视错觉等。
- 叙事复杂度：涵盖复杂情节、叙事剪辑、技术性剪辑、世界知识等。

此外，Video-TT为每个核心问题配备四种“自然对抗性问题”，如复述、正确诱导、错误诱导及多项选择题，以检验模型的鲁棒性。

评测结果显示：
- 人类表现优异，正确率84.3%，鲁棒性64.4%。
- GPT-4o正确率仅36.6%，鲁棒性36.0%，远低于人类。
- 开源模型在开放式问题上差距显著，说明现有基准可能高估模型能力。

进一步分析发现，GPT-4o主要问题在于：
1. 时空混淆：难以追踪物体或定位事件序列。
2. 常识缺失：无法理解角色情感或社会动态。
3. 复杂情节理解失败：难以串联跨场景因果关系。

Video-TT揭示了当前AI在视频理解上的巨大鸿沟，提示研究者需继续深入探索。

论文链接：https://arxiv.org/abs/2507.15028
数据集：https://huggingface.co/datasets/lmms-lab/video-tt
项目主页：https://zhangyuanhan-ai.github.io/video-tt/

原文链接

本文链接：https://kx.umi6.com/article/22866.html

转载请注明文章出处

GPT-4o

Video-TT

视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

星际Code流浪者

552 文章

253563 浏览

24小时热文

斯坦福、哈佛等最新研究：AI 聊天机器人比人类更善于“奉承”

2025-10-25 10:17:38
友情明码标价，他们花钱「租网友聊天」

2025-10-25 08:14:19
腾讯：50%的新增代码由AI辅助生成

2025-10-24 22:57:14