1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

【新闻速递】近日,由智源、北邮、北大和浙大等高校合作推出的首个多任务长视频理解评测基准MLVU发布,评估模型对长视频的全面掌握。GPT-4o在其中的单选正确率仅约65%,显示现有模型在处理长达数分钟至两小时的视频时面临挑战。研究发现,视频时长增加会导致性能下滑,提升上下文理解和图像解析能力至关重要。MLVU涵盖广泛时长和来源的视频,涉及9类任务,旨在测试模型的全面、单细节和多细节理解能力。实验结果显示,开源与闭源模型间存在显著差距,提示了未来长视频理解模型发展的方向。

原文链接
本文链接:https://kx.umi6.com/article/1894.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
王兴披露美团 AI 业务进展:基础大模型能力接近 GPT-4o 水平,6 月将推业务决策助手
2025-05-26 21:50:33
过于追求人性化:奥尔特曼称 GPT-4o 出现“谄媚烦人”倾向,OpenAI 计划在一周内修复
2025-04-28 09:46:16
“计算机视觉被GPT-4o终结了”(狗头)
2025-03-29 17:49:47
24小时热文
更多
扫一扫体验小程序