2025年10月,上海人工智能实验室联合浙江大学等机构发布首个视频到代码(video2code)评测基准IWR-Bench。该基准要求模型观看用户操作视频并生成包含完整交互逻辑的网页代码,涵盖113个真实网站任务和1001次交互动作。测试显示,即便是表现最佳的GPT-5模型,综合得分仅36.35分,功能正确性(IFS)仅为24.39%,视觉保真度(VFS)为64.25%。研究揭示当前AI在事件驱动逻辑生成上的显著短板,同时表明通用多模态模型优于专有视频理解模型。IWR-Bench为AI从静态网页生成迈向动态交互理解指明了新方向。论文及代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/26930.html
转载请注明文章出处
相关推荐
换一换
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
2025-03-27 04:26:09
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布
2025-10-19 15:51:15
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
2025-03-25 09:39:46
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手
2024-09-12 16:52:34
604 文章
364639 浏览
24小时热文
更多
-
2025-12-07 22:52:28 -
2025-12-07 22:51:22 -
2025-12-07 21:52:07