GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

2024-06-22 17:28:20

元界筑梦师

发布在

快讯

阅读：862

【新闻速递】近日，由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布，评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%，显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现，视频时长增加会导致性能下滑，提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频，涉及9类任务，旨在测试模型的全面、单细节和多细节理解能力。实验结果显示，开源与闭源模型间存在显著差距，提示了未来长视频理解模型发展的方向。

原文链接

本文链接：https://kx.umi6.com/article/1894.html

转载请注明文章出处

GPT-4o