1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4.5创造力不及GPT-4o?浙大上海AI Lab发布新基准探索多模态创造力极限

近来备受瞩目的GPT-4.5在日常问答和创意任务中表现出色,但其“创造力天花板”引发关注。现有评测基准难以衡量多模态大模型的创造性见解,尤其在复杂场景下。为此,浙江大学与上海人工智能实验室等团队联合推出Creation-MMBench,全球首个面向真实场景的多模态创造力评测基准,包含四大任务类别、51项细粒度任务和765个高难度案例。

Creation-MMBench覆盖文学创作、日常功能性写作、专业功能性写作及多模态理解与创作四大领域,涉及千张跨域图像和复杂情境,能更全面地评估模型的视觉理解与创意生成能力。团队采用双重评估体系,包括视觉事实性评分与创意奖励分,确保评价的客观性与一致性。

实验结果显示,Gemini-2.0-Pro在日常功能性写作中表现优异,而GPT-4.5虽在多模态任务上表现出色,但整体创意力稍逊于GPT-4o。开源模型如Qwen2.5-VL和InternVL在创造力上接近闭源模型,但仍存差距。

进一步研究发现,视觉微调可能限制了模型的长文本创作能力。团队通过纯文本版Creation-MMBench-TO验证,闭源LLM在创意任务中表现更优。

Creation-MMBench已集成至VLMEvalKit,支持一键评测。想了解你的模型能否讲好图像里的故事?快来试试吧!

论文链接:https://arxiv.org/abs/2503.14478
GitHub链接:https://github.com/open-compass/Creation-MMBench
主页链接:https://open-compass.github.io/Creation-MMBench/

原文链接
本文链接:https://kx.umi6.com/article/16700.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型
2025-02-18 11:13:42
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
2024-07-25 18:37:14
多模态大模型崛起:IP和创作者的新时代
2025-04-17 18:47:50
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
24小时热文
更多
扫一扫体验小程序