GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
RISEBench团队投稿,量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务,暴露出多模态模型在复杂图像编辑中的不足。
上海人工智能实验室联合多家高校和国际机构提出RISE(Reasoning-Informed ViSual Editing)任务,旨在评估模型在时间、因果、空间和逻辑推理方面的综合能力。团队发布了RISEBench基准,包含360个由人类专家设计的高难度测试案例。
测试结果显示,GPT-4o-Image表现最佳,但也仅完成28.9%的任务;开源模型BAGEL仅完成5.8%,其余模型大多接近零分。评估涵盖指令理解、外观一致性和视觉合理性三大维度,揭示了当前模型在深层理解与推理能力上的局限。
RISEBench强调复杂指令下的自然生成与逻辑连贯性,为未来视觉编辑模型提供了更科学的评价体系。团队期望该基准推动模型从“模仿”向“理解”迈进,实现更具创造力的图像编辑功能。论文和代码已公开。
原文链接
本文链接:https://kx.umi6.com/article/19511.html
转载请注明文章出处
相关推荐
.png)
换一换
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
2025-08-19 16:06:04
阿里云通义万相推出图像编辑模型 ACE:一句话即可让 AI 修改图片
2024-11-30 23:20:09
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
2025-06-14 20:40:35
阶跃星辰开源图像编辑模型Step1X-Edit
2025-04-27 11:14:13
字节跳动发布图像编辑模型 SeedEdit 3.0,处理更加丝滑高效
2025-06-06 16:37:39
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
2025-08-27 16:05:56
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
2024-12-01 19:36:50
阶跃星辰开源图像编辑模型 Step1X-Edit:身份一致性保持、区域级控制
2025-04-27 12:13:44
谷歌nano banana火爆出圈 AI应用有望站上市场风口
2025-09-01 08:15:00
图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成
2025-07-01 10:52:29
谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项表现优于 GPT-4o
2025-08-27 09:00:44
谷歌推出 Gemini 本地图像编辑功能:动动手就能让 AI 帮你改图
2025-05-01 17:30:47
阿里通义千问:推出图像编辑模型Qwen-Image-Edit
2025-08-19 09:59:40
619 文章
223803 浏览
24小时热文
更多

-
2025-09-21 23:49:45
-
2025-09-21 22:50:30
-
2025-09-21 22:49:22