知识类型视角切入，全面评测图像编辑模型推理能力：所有模型在「程序性推理」方面表现不佳

2025-06-13 15:08:40

小阳哥

发布在

科普

阅读：1335

标题：知识类型视角评测图像编辑模型推理能力：程序性推理表现欠佳

东南大学联合多家机构提出KRIS-Bench，从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型，细分为7大推理维度、22种任务，覆盖从初级到高级的全谱系难度。样本总量达1,267对图像–指令，数据来源多样化，确保评估的严谨性。

KRIS-Bench采用四维度评估体系：视觉一致性、视觉质量、指令跟随和知识合理性。团队测试了10款模型，包括3款闭源和7款开源模型。结果显示，闭源旗舰GPT-Image-1表现最佳，而开源模型BAGEL-Think通过引入推理机制提升了知识合理性得分。然而，大多数模型在程序性推理、自然科学及多步骤合成任务中表现欠佳，暴露出深层推理能力的不足。

KRIS-Bench推动图像编辑模型向具备人类认知能力的方向发展，期望未来AI不仅能完成基础编辑，还能理解因果关系并进行复杂推理。更多详情可访问项目地址、论文地址和代码地址。

原文链接

本文链接：https://kx.umi6.com/article/20195.html

转载请注明文章出处

KRIS-Bench