【新闻速递】近日,由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布,评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%,显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现,视频时长增加会导致性能下滑,提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频,涉及9类任务,旨在测试模型的全面、单细节和多细节理解能力。实验结果显示,开源与闭源模型间存在显著差距,提示了未来长视频理解模型发展的方向。
原文链接
本文链接:https://kx.umi6.com/article/1894.html
转载请注明文章出处
相关推荐
换一换
阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o
2024-11-12 17:09:55
Llama 3.1提前泄密,将GPT-4o踹下宝座?更快,价格便宜10倍
2024-07-24 09:04:52
ChatGPT界面大更新,开始卷应用了?这次想灭谁?
2024-10-09 10:29:16
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
OpenAI 发布最新技术报告,揭秘 GPT-4o 变谄媚的原因
2025-05-03 16:36:59
超越 GPT-4o:开源科研模型 OpenScholar 登场,4500 万篇论文检索增强生成回答
2024-11-26 19:38:14
“计算机视觉被GPT-4o终结了”(狗头)
2025-03-29 17:49:47
GPT-4o一夜被赶超,Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏
2024-06-21 22:05:07
OpenAI GPT-4o AI 模型再升级,智能与个性双提升
2025-04-26 14:47:21
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
2024-06-22 17:28:20
交互效果对标 GPT-4o,商汤发布国内首个所见即所得模型“日日新 5o”
2024-07-05 22:48:41
只给一张Doge图,GPT-4o就帮我画好一整个RPG游戏
2025-03-31 20:50:34
ChatGPT 负责人复盘 GPT-4o 下架风波:过早下架属失误,后续将迭代模型人格
2025-09-18 14:53:31
579 文章
366626 浏览
24小时热文
更多
-
2025-12-08 22:52:38 -
2025-12-08 22:51:57 -
2025-12-08 22:51:33