在最新的AI竞赛中,Gemini视频推理模型在Video-MME基准测试中大幅领先,首次全面评估大模型的视频理解能力。Google首席科学家Jeff Dean连续转发Video-MME消息,肯定了这项由中科大等高校合作推出的全人工标注高质量数据集。Video-MME测试涵盖了不同时长、模态和类型的视频,从11秒至1小时,评估模型在长视频理解上的表现。Gemini 1.5 Pro表现出色,尤其在加字幕的长视频中超越开源模型。然而,所有模型在长视频处理上仍有提升空间,暗示未来研究将聚焦于多模态长上下文理解和高质量长视频数据集的建设。
原文链接
本文链接:https://kx.umi6.com/article/1567.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4o 现货变期货,是什么在拖OpenAI 的后腿
2024-07-16 19:38:45
ChatGPT界面大更新,开始卷应用了?这次想灭谁?
2024-10-09 10:29:16
OpenAI 发布 GPT-4o 模型卡:概述 AI 安全和风险缓解措施
2024-08-10 12:01:40
431 文章
72217 浏览
24小时热文
更多

-
2025-07-20 21:10:03
-
2025-07-20 21:09:03
-
2025-07-20 20:08:46