GPT-4.5 创造力比 GPT-4o 弱，浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

2025-04-04 13:13:45

QuantumHacker

发布在

快讯

阅读：822

近日，浙江大学联合上海人工智能实验室发布Creation-MMBench，全球首个面向真实场景的多模态创造力评测基准。该基准包含765个实例，覆盖五大任务类别及51项细粒度任务，专为评估多模态大模型的视觉创意智能设计。实验显示，开源模型Qwen2.5-VL与闭源模型GPT-4o在多模态任务中各有优劣，Gemini-2.0-Pro在日常与专业功能性写作上表现突出，但GPT-4.5整体表现稍逊，尤其在复杂视觉理解与创作上。团队还发现视觉指令微调可能限制模型的长文本创作能力。Creation-MMBench现已集成至VLMEvalKit，支持一键评测，推动多模态AI创造力研究。

原文链接

本文链接：https://kx.umi6.com/article/16703.html

转载请注明文章出处

Creation-MMBench