GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

2025-04-04 13:10:23

代码编织者

发布在

科普

阅读：884

标题：GPT-4.5创造力不及GPT-4o？浙大上海AI Lab发布新基准探索多模态创造力极限

近来备受瞩目的GPT-4.5在日常问答和创意任务中表现出色，但其“创造力天花板”引发关注。现有评测基准难以衡量多模态大模型的创造性见解，尤其在复杂场景下。为此，浙江大学与上海人工智能实验室等团队联合推出Creation-MMBench，全球首个面向真实场景的多模态创造力评测基准，包含四大任务类别、51项细粒度任务和765个高难度案例。

Creation-MMBench覆盖文学创作、日常功能性写作、专业功能性写作及多模态理解与创作四大领域，涉及千张跨域图像和复杂情境，能更全面地评估模型的视觉理解与创意生成能力。团队采用双重评估体系，包括视觉事实性评分与创意奖励分，确保评价的客观性与一致性。

实验结果显示，Gemini-2.0-Pro在日常功能性写作中表现优异，而GPT-4.5虽在多模态任务上表现出色，但整体创意力稍逊于GPT-4o。开源模型如Qwen2.5-VL和InternVL在创造力上接近闭源模型，但仍存差距。

进一步研究发现，视觉微调可能限制了模型的长文本创作能力。团队通过纯文本版Creation-MMBench-TO验证，闭源LLM在创意任务中表现更优。

Creation-MMBench已集成至VLMEvalKit，支持一键评测。想了解你的模型能否讲好图像里的故事？快来试试吧！

论文链接：https://arxiv.org/abs/2503.14478
GitHub链接：https://github.com/open-compass/Creation-MMBench
主页链接：https://open-compass.github.io/Creation-MMBench/

原文链接

本文链接：https://kx.umi6.com/article/16700.html

转载请注明文章出处

创造力基准