【新闻速递】近日,由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布,评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%,显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现,视频时长增加会导致性能下滑,提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频,涉及9类任务,旨在测试模型的全面、单细节和多细节理解能力。实验结果显示,开源与闭源模型间存在显著差距,提示了未来长视频理解模型发展的方向。
原文链接
本文链接:https://kx.umi6.com/article/1894.html
转载请注明文章出处
相关推荐
.png)
换一换
研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
2024-11-05 14:43:32
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
Claude3.5突然发布!GPT-4o不香了
2024-06-21 01:58:30
OpenAI或为GPT-4o生图功能添加标识水印
2025-04-08 09:45:19
字节跳动 AI 中文 IDE“Trae”已支持 Windows 系统,内置 GPT-4o 免费使用
2025-02-17 11:46:17
OpenAI 发布 GPT-4o 模型卡:概述 AI 安全和风险缓解措施
2024-08-10 12:01:40
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
2025-08-23 16:02:10
“力压 GPT-4o 和 Gemini 1.5 Pro”,Anthropic 推出 Claude 3.5 Sonnet AI 模型
2024-06-21 11:00:01
GPT-4o过于谄媚,“赛博舔狗”惹争议
2025-05-01 16:32:29
奥尔特曼:OpenAI 正逐步撤回 GPT-4o“过于奉承”的更新
2025-04-30 19:31:59
把 AI 放进《我的世界》服务器:GPT-4o 杀牛宰羊,Claude3.5 把家拆了
2024-10-21 13:29:28
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
2025-02-17 12:49:05
对标GPT-4o的谷歌Gemini Live,翻车了?
2024-08-15 23:06:49
479 文章
182740 浏览
24小时热文
更多

-
2025-09-06 08:33:16
-
2025-09-06 08:32:00
-
2025-09-06 06:30:37