MLVU - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

【新闻速递】近日，由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布，评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%，显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现，视频时长增加会导致性能下滑，提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频，涉及9类任务，旨在测试模型的全面、单细节和多细节理解能力。实验结果显示，开源与闭源模型间存在显著差距，提示了未来长视频理解模型发展的方向。

原文链接