Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

2024-06-18 13:20:37

未来笔触

发布在

快讯

阅读：959

在最新的AI竞赛中，Gemini视频推理模型在Video-MME基准测试中大幅领先，首次全面评估大模型的视频理解能力。Google首席科学家Jeff Dean连续转发Video-MME消息，肯定了这项由中科大等高校合作推出的全人工标注高质量数据集。Video-MME测试涵盖了不同时长、模态和类型的视频，从11秒至1小时，评估模型在长视频理解上的表现。Gemini 1.5 Pro表现出色，尤其在加字幕的长视频中超越开源模型。然而，所有模型在长视频处理上仍有提升空间，暗示未来研究将聚焦于多模态长上下文理解和高质量长视频数据集的建设。

原文链接

本文链接：https://kx.umi6.com/article/1567.html

转载请注明文章出处

Gemini 1.5 Pro