1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

RISEBench团队投稿,量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务,暴露出多模态模型在复杂图像编辑中的不足。

上海人工智能实验室联合多家高校和国际机构提出RISE(Reasoning-Informed ViSual Editing)任务,旨在评估模型在时间、因果、空间和逻辑推理方面的综合能力。团队发布了RISEBench基准,包含360个由人类专家设计的高难度测试案例。

测试结果显示,GPT-4o-Image表现最佳,但也仅完成28.9%的任务;开源模型BAGEL仅完成5.8%,其余模型大多接近零分。评估涵盖指令理解、外观一致性和视觉合理性三大维度,揭示了当前模型在深层理解与推理能力上的局限。

RISEBench强调复杂指令下的自然生成与逻辑连贯性,为未来视觉编辑模型提供了更科学的评价体系。团队期望该基准推动模型从“模仿”向“理解”迈进,实现更具创造力的图像编辑功能。论文和代码已公开。

原文链接
本文链接:https://kx.umi6.com/article/19511.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
2025-08-27 16:05:56
修图 AI 模型 Qwen-Image-Edit-2511 开源上线:提升角色一致性、增强几何推理
2025-12-25 15:42:29
字节跳动发布图像编辑模型 SeedEdit 3.0,处理更加丝滑高效
2025-06-06 16:37:39
谷歌Gemini2.0新神技,难评
2025-03-17 22:00:35
豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力
2025-05-23 19:20:17
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
2025-05-26 17:30:40
苹果全能视觉 AI 模型 UniGen 1.5 亮相,看图、修图、绘图三合一
2025-12-19 08:35:06
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
阿里云通义万相推出图像编辑模型 ACE:一句话即可让 AI 修改图片
2024-11-30 23:20:09
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
2025-08-19 16:06:04
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
一句话 P 图,字节跳动发布通用图像编辑模型 SeedEdit
2024-11-12 19:13:10
阿里通义 Qwen-lmage-Edit-2511 图像编辑 AI 模型开源,支持两人隔空“合照”
2025-12-25 17:49:41
24小时热文
更多
扫一扫体验小程序