1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

CVPR2025视频生成统一评估架构:上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正在快速革新视觉内容创作,从电影到社交媒体,高质量视频的重要性日益凸显。然而,如何评估AI生成的视频是否符合人类审美和需求成为难题。为此,上海交通大学、斯坦福大学等机构联合提出了Video-Bench评估框架,通过模拟人类认知过程,让多模态大模型(MLLM)实现智能化评估。

Video-Bench包含两大核心创新:一是构建了“视频-条件对齐”和“视频质量”双维度评估框架;二是引入“链式查询”和“少样本评分”两项技术。“链式查询”通过多轮问答解决跨模态对齐难题,“少样本评分”则将主观美学评价转化为客观标准。实验显示,Video-Bench在视频一致性(0.735相关性)和美学质量等方面显著优于现有方法。

该框架不仅覆盖视频生成的关键要素,还通过多轮迭代和对比评估,提升了评估的全面性和稳定性。在对主流视频生成模型的测评中,商业模型整体表现优于开源模型,而GPT-4o系列在成像质量和视频-文本一致性方面尤为突出,但部分版本在运动效果上略有退化。

研究团队由上海交通大学、斯坦福大学等机构的多位学者组成,包括韩慧、李思远、陈家棋、袁怡雯等。代码和论文已公开,供全球研究者参考。

原文链接
本文链接:https://kx.umi6.com/article/20147.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
24小时热文
更多
扫一扫体验小程序