1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:知识类型视角评测图像编辑模型推理能力:程序性推理表现欠佳

东南大学联合多家机构提出KRIS-Bench,从知识类型角度系统评测图像编辑模型的推理能力。KRIS-Bench涵盖事实性、概念性和程序性三种知识类型,细分为7大推理维度、22种任务,覆盖从初级到高级的全谱系难度。样本总量达1,267对图像–指令,数据来源多样化,确保评估的严谨性。

KRIS-Bench采用四维度评估体系:视觉一致性、视觉质量、指令跟随和知识合理性。团队测试了10款模型,包括3款闭源和7款开源模型。结果显示,闭源旗舰GPT-Image-1表现最佳,而开源模型BAGEL-Think通过引入推理机制提升了知识合理性得分。然而,大多数模型在程序性推理、自然科学及多步骤合成任务中表现欠佳,暴露出深层推理能力的不足。

KRIS-Bench推动图像编辑模型向具备人类认知能力的方向发展,期望未来AI不仅能完成基础编辑,还能理解因果关系并进行复杂推理。更多详情可访问项目地址、论文地址和代码地址。

原文链接
本文链接:https://kx.umi6.com/article/20195.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
2025-05-24 13:07:09
马斯克发布Grok 3,推理能力超o3和DeepSeek-R1
2025-02-18 15:28:47
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
2025-06-19 09:43:42
黄仁勋自曝每天使用ChatGPT!相信它会越来越强
2024-10-11 12:06:04
OpenAI“草莓”推理大模型两周内就要上架?用户恐将面临耐心考验
2024-09-11 03:18:27
Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
2024-11-18 10:17:27
卡内基梅隆大学新研究:部分 AI 正在学着变得“越来越自私”
2025-11-01 17:39:35
地球上最聪明的AI!马斯克发布Grok 3:秒杀GPT 超越DeepSeek
2025-02-18 13:21:40
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
2025-06-13 15:08:40
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
2025-08-01 08:51:42
谷歌Gemini 2.5 Pro发布即屠榜,代码推理杀疯了
2025-03-26 16:01:23
OpenAI发布具有推理能力的人工智能模型o1
2024-09-13 03:03:16
24小时热文
更多
扫一扫体验小程序