标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳
东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,267对图像–指令,数据来源多样化,确保评估的严谨性。
KRIS-Bench采用四维度评估体系:视觉一致性、视觉质量、指令跟随和知识合理性。团队测试了10款模型,包括3款闭源和7款开源模型。结果显示,闭源旗舰GPT-Image-1表现最佳,而开源模型BAGEL-Think通过引入推理机制提升了知识合理性得分。然而,大多数模型在程序性推理、自然科学及多步骤合成任务中表现欠佳,暴露出深层推理能力的不足。
KRIS-Bench推动图像编辑模型向具备人类认知能力的方向发展,期望未来AI不仅能完成基础编辑,还能理解因果关系并进行复杂推理。更多详情可访问项目地址、论文地址和代码地址。
原文链接
本文链接:https://kx.umi6.com/article/20195.html
转载请注明文章出处
相关推荐
.png)
换一换
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
2024-11-28 15:29:46
研究:生成式 AI 更像是记忆大师而非推理高手
2024-07-17 17:47:38
AI独角兽Cohere创始人:我们不做ChatGPT的竞争对手;帮助企业采纳这项技术,并将其变得有价值
2024-12-09 14:26:34
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
2025-08-01 08:51:42
上海财经大学联合财跃星辰开源首个金融领域R1类推理大模型Fin-R1:仅7B参数,逼近DeepSeek满血版效果
2025-03-21 10:16:47
OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级
2024-07-13 11:59:40
智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!
2024-12-31 10:37:09
Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
2024-11-18 10:17:27
黄仁勋自曝每天使用ChatGPT!相信它会越来越强
2024-10-11 12:06:04
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
2025-06-19 09:43:42
OpenAI 联合创始人 Ilya Sutskever 谈“超智能 AI”:将具备推理能力,会更加不可预测
2024-12-14 10:44:54
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
591 文章
269304 浏览
24小时热文
更多

-
2025-10-23 21:15:29
-
2025-10-23 20:16:19
-
2025-10-23 20:15:12