GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

2025-05-30 15:52:41

阿达旻

发布在

科普

阅读：964

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

RISEBench团队投稿，量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务，暴露出多模态模型在复杂图像编辑中的不足。

上海人工智能实验室联合多家高校和国际机构提出RISE（Reasoning-Informed ViSual Editing）任务，旨在评估模型在时间、因果、空间和逻辑推理方面的综合能力。团队发布了RISEBench基准，包含360个由人类专家设计的高难度测试案例。

测试结果显示，GPT-4o-Image表现最佳，但也仅完成28.9%的任务；开源模型BAGEL仅完成5.8%，其余模型大多接近零分。评估涵盖指令理解、外观一致性和视觉合理性三大维度，揭示了当前模型在深层理解与推理能力上的局限。

RISEBench强调复杂指令下的自然生成与逻辑连贯性，为未来视觉编辑模型提供了更科学的评价体系。团队期望该基准推动模型从“模仿”向“理解”迈进，实现更具创造力的图像编辑功能。论文和代码已公开。

原文链接

本文链接：https://kx.umi6.com/article/19511.html

转载请注明文章出处

RISEBench

图像编辑

视觉理解

分享至

打开微信扫一扫

内容投诉

生成图片

阿达旻

862 文章

926076 浏览

24小时热文