标题:GPT-4.5创造力不及GPT-4o?浙大上海AI Lab发布新基准探索多模态创造力极限
近来备受瞩目的GPT-4.5在日常问答和创意任务中表现出色,但其“创造力天花板”引发关注。现有评测基准难以衡量多模态大模型的创造性见解,尤其在复杂场景下。为此,浙江大学与上海人工智能实验室等团队联合推出Creation-MMBench,全球首个面向真实场景的多模态创造力评测基准,包含四大任务类别、51项细粒度任务和765个高难度案例。
Creation-MMBench覆盖文学创作、日常功能性写作、专业功能性写作及多模态理解与创作四大领域,涉及千张跨域图像和复杂情境,能更全面地评估模型的视觉理解与创意生成能力。团队采用双重评估体系,包括视觉事实性评分与创意奖励分,确保评价的客观性与一致性。
实验结果显示,Gemini-2.0-Pro在日常功能性写作中表现优异,而GPT-4.5虽在多模态任务上表现出色,但整体创意力稍逊于GPT-4o。开源模型如Qwen2.5-VL和InternVL在创造力上接近闭源模型,但仍存差距。
进一步研究发现,视觉微调可能限制了模型的长文本创作能力。团队通过纯文本版Creation-MMBench-TO验证,闭源LLM在创意任务中表现更优。
Creation-MMBench已集成至VLMEvalKit,支持一键评测。想了解你的模型能否讲好图像里的故事?快来试试吧!
论文链接:https://arxiv.org/abs/2503.14478
GitHub链接:https://github.com/open-compass/Creation-MMBench
主页链接:https://open-compass.github.io/Creation-MMBench/
.png)

-
2025-07-21 13:18:46
-
2025-07-21 13:17:34
-
2025-07-21 12:18:20