CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

2025-06-12 17:39:33

数字墨迹

发布在

科普

阅读：146

CVPR2025视频生成统一评估架构：上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正在快速革新视觉内容创作，从电影到社交媒体，高质量视频的重要性日益凸显。然而，如何评估AI生成的视频是否符合人类审美和需求成为难题。为此，上海交通大学、斯坦福大学等机构联合提出了Video-Bench评估框架，通过模拟人类认知过程，让多模态大模型（MLLM）实现智能化评估。

Video-Bench包含两大核心创新：一是构建了“视频-条件对齐”和“视频质量”双维度评估框架；二是引入“链式查询”和“少样本评分”两项技术。“链式查询”通过多轮问答解决跨模态对齐难题，“少样本评分”则将主观美学评价转化为客观标准。实验显示，Video-Bench在视频一致性（0.735相关性）和美学质量等方面显著优于现有方法。

该框架不仅覆盖视频生成的关键要素，还通过多轮迭代和对比评估，提升了评估的全面性和稳定性。在对主流视频生成模型的测评中，商业模型整体表现优于开源模型，而GPT-4o系列在成像质量和视频-文本一致性方面尤为突出，但部分版本在运动效果上略有退化。

研究团队由上海交通大学、斯坦福大学等机构的多位学者组成，包括韩慧、李思远、陈家棋、袁怡雯等。代码和论文已公开，供全球研究者参考。

原文链接

本文链接：https://kx.umi6.com/article/20147.html

转载请注明文章出处

Video-Bench