1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型难懂视频,GPT-4o正确率仅36%,南洋理工推出新基准

正文:
视频大型语言模型(Video LLMs)虽能描述视频内容并回答问题,但其是否真正“理解”视频仍是疑问。为解答这一问题,南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test(Video-TT),旨在分离“看”与“想”的能力,精准评估AI的视频理解与推理水平。

研究发现:
1. 人类在视频理解的准确率和鲁棒性上远超SOTA模型(50%)。
2. 开源模型在鲁棒性上逊色于GPT-4o。
3. GPT-4o短板明显:对模糊或非常规内容识别弱,难处理多场景区分与因果关系,缺乏世界知识与深层意图理解。

现有视频理解基准存在缺陷,无法区分模型因“没看清”还是“没想明白”出错。Video-TT通过精选1000条YouTube短视频,确保答案可在80帧内找到,避免了长视频采样不足与短视频天花板效应的问题,直击AI“思考”核心。

问题设计聚焦两大维度:
- 视觉复杂度:包括模糊内容、运动速度、时空布局、视错觉等。
- 叙事复杂度:涵盖复杂情节、叙事剪辑、技术性剪辑、世界知识等。

此外,Video-TT为每个核心问题配备四种“自然对抗性问题”,如复述、正确诱导、错误诱导及多项选择题,以检验模型的鲁棒性。

评测结果显示:
- 人类表现优异,正确率84.3%,鲁棒性64.4%。
- GPT-4o正确率仅36.6%,鲁棒性36.0%,远低于人类。
- 开源模型在开放式问题上差距显著,说明现有基准可能高估模型能力。

进一步分析发现,GPT-4o主要问题在于:
1. 时空混淆:难以追踪物体或定位事件序列。
2. 常识缺失:无法理解角色情感或社会动态。
3. 复杂情节理解失败:难以串联跨场景因果关系。

Video-TT揭示了当前AI在视频理解上的巨大鸿沟,提示研究者需继续深入探索。

论文链接:https://arxiv.org/abs/2507.15028
数据集:https://huggingface.co/datasets/lmms-lab/video-tt
项目主页:https://zhangyuanhan-ai.github.io/video-tt/

原文链接
本文链接:https://kx.umi6.com/article/22866.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
2024-11-05 14:43:32
奥尔特曼:GPT-4o文生图功能总生成量将突破10亿 大多数改变世界的公司最初都被视为“套壳”
2025-04-07 17:11:17
打开必应就能生图,微软 Bing Image Creator 免费接入 GPT-4o
2025-08-07 15:51:50
对标GPT-4o的谷歌Gemini Live,翻车了?
2024-08-15 23:06:49
把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3.5 把家拆了
2024-10-21 13:29:28
GPT-4o被谷歌新模型Gemini 1.5 Pro超越
2024-08-02 16:24:53
Llama 3.1提前泄密,将GPT-4o踹下宝座?更快,价格便宜10倍
2024-07-24 09:04:52
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
GPT-4o偷偷升级,变身聊天鬼才!新版STEM智力飙升,生图却惨遭削弱?
2025-05-05 09:41:32
阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o
2024-11-12 17:09:55
GPT-4o 系列 AI 模型加持,微软 LlamaParse 文档解析能力全面升级
2024-11-28 14:33:00
因为GPT-5,这群人决定在Reddit上起义
2025-08-11 11:01:24
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
24小时热文
更多
扫一扫体验小程序