模型“看视频写网页”，GPT-5仅36.35分！首个video2code基准发布

2025-10-19 15:51:15

数字墨迹

发布在

快讯

阅读：542

2025年10月，上海人工智能实验室联合浙江大学等机构发布首个视频到代码（video2code）评测基准IWR-Bench。该基准要求模型观看用户操作视频并生成包含完整交互逻辑的网页代码，涵盖113个真实网站任务和1001次交互动作。测试显示，即便是表现最佳的GPT-5模型，综合得分仅36.35分，功能正确性（IFS）仅为24.39%，视觉保真度（VFS）为64.25%。研究揭示当前AI在事件驱动逻辑生成上的显著短板，同时表明通用多模态模型优于专有视频理解模型。IWR-Bench为AI从静态网页生成迈向动态交互理解指明了新方向。论文及代码已开源。

原文链接

本文链接：https://kx.umi6.com/article/26930.html

转载请注明文章出处

IWR-Bench