2025-04-04 13:13:45
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
阅读:193
近日,浙江大学联合上海人工智能实验室发布Creation-MMBench,全球首个面向真实场景的多模态创造力评测基准。该基准包含765个实例,覆盖五大任务类别及51项细粒度任务,专为评估多模态大模型的视觉创意智能设计。实验显示,开源模型Qwen2.5-VL与闭源模型GPT-4o在多模态任务中各有优劣,Gemini-2.0-Pro在日常与专业功能性写作上表现突出,但GPT-4.5整体表现稍逊,尤其在复杂视觉理解与创作上。团队还发现视觉指令微调可能限制模型的长文本创作能力。Creation-MMBench现已集成至VLMEvalKit,支持一键评测,推动多模态AI创造力研究。
原文链接
本文链接:https://kx.umi6.com/article/16703.html
转载请注明文章出处
相关推荐
.png)
换一换
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
阶跃星辰走「窄门」
2025-06-12 18:36:57
2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻
2025-01-09 11:54:47
409 文章
58508 浏览
24小时热文
更多

-
2025-07-22 00:23:59
-
2025-07-21 22:23:40
-
2025-07-21 21:25:24