1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4.5创造力不及GPT-4o?浙大上海AI Lab发布新基准探索多模态创造力极限

近来备受瞩目的GPT-4.5在日常问答和创意任务中表现出色,但其“创造力天花板”引发关注。现有评测基准难以衡量多模态大模型的创造性见解,尤其在复杂场景下。为此,浙江大学与上海人工智能实验室等团队联合推出Creation-MMBench,全球首个面向真实场景的多模态创造力评测基准,包含四大任务类别、51项细粒度任务和765个高难度案例。

Creation-MMBench覆盖文学创作、日常功能性写作、专业功能性写作及多模态理解与创作四大领域,涉及千张跨域图像和复杂情境,能更全面地评估模型的视觉理解与创意生成能力。团队采用双重评估体系,包括视觉事实性评分与创意奖励分,确保评价的客观性与一致性。

实验结果显示,Gemini-2.0-Pro在日常功能性写作中表现优异,而GPT-4.5虽在多模态任务上表现出色,但整体创意力稍逊于GPT-4o。开源模型如Qwen2.5-VL和InternVL在创造力上接近闭源模型,但仍存差距。

进一步研究发现,视觉微调可能限制了模型的长文本创作能力。团队通过纯文本版Creation-MMBench-TO验证,闭源LLM在创意任务中表现更优。

Creation-MMBench已集成至VLMEvalKit,支持一键评测。想了解你的模型能否讲好图像里的故事?快来试试吧!

论文链接:https://arxiv.org/abs/2503.14478
GitHub链接:https://github.com/open-compass/Creation-MMBench
主页链接:https://open-compass.github.io/Creation-MMBench/

原文链接
本文链接:https://kx.umi6.com/article/16700.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
24小时热文
更多
扫一扫体验小程序