标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳
东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,267对图像–指令,数据来源多样化,确保评估的严谨性。
KRIS-Bench采用四维度评估体系:视觉一致性、视觉质量、指令跟随和知识合理性。团队测试了10款模型,包括3款闭源和7款开源模型。结果显示,闭源旗舰GPT-Image-1表现最佳,而开源模型BAGEL-Think通过引入推理机制提升了知识合理性得分。然而,大多数模型在程序性推理、自然科学及多步骤合成任务中表现欠佳,暴露出深层推理能力的不足。
KRIS-Bench推动图像编辑模型向具备人类认知能力的方向发展,期望未来AI不仅能完成基础编辑,还能理解因果关系并进行复杂推理。更多详情可访问项目地址、论文地址和代码地址。
原文链接
本文链接:https://kx.umi6.com/article/20195.html
转载请注明文章出处
相关推荐
换一换
DeepSeek们越来越聪明,却也越来越不听话了
2025-05-20 22:46:53
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
2025-08-29 13:38:40
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
2025-02-17 15:53:30
地球上最聪明的AI!马斯克发布Grok 3:秒杀GPT 超越DeepSeek
2025-02-18 13:21:40
OpenAI最强模型o1,仍分不出“9.11和9.8哪个大”
2024-09-13 12:16:49
马斯克:Grok 3表现优于我们所知的任何已发布产品
2025-02-13 17:27:15
实测OpenAI新模型o1 :做题王者,实战青铜
2024-09-15 13:49:20
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
2025-06-20 17:00:54
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级
2024-07-13 11:59:40
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
2025-04-15 08:22:07
704 文章
451040 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16