
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
【新闻速递】近日,由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布,评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%,显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现,视频时长增加会导致性能下滑,提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频,涉及9类任务,旨在测试模型的全面、单细节和多细节理解能力。实验结果显示,开源与闭源模型间存在显著差距,提示了未来长视频理解模型发展的方向。
原文链接
加载更多

暂无内容