2025-04-04 13:13:45
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
阅读:817
近日,浙江大学联合上海人工智能实验室发布Creation-MMBench,全球首个面向真实场景的多模态创造力评测基准。该基准包含765个实例,覆盖五大任务类别及51项细粒度任务,专为评估多模态大模型的视觉创意智能设计。实验显示,开源模型Qwen2.5-VL与闭源模型GPT-4o在多模态任务中各有优劣,Gemini-2.0-Pro在日常与专业功能性写作上表现突出,但GPT-4.5整体表现稍逊,尤其在复杂视觉理解与创作上。团队还发现视觉指令微调可能限制模型的长文本创作能力。Creation-MMBench现已集成至VLMEvalKit,支持一键评测,推动多模态AI创造力研究。
原文链接
本文链接:https://kx.umi6.com/article/16703.html
转载请注明文章出处
相关推荐
换一换
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻
2025-01-09 11:54:47
大模型如何避免“狭义AI陷阱”?
2024-07-15 21:50:24
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
2025-05-28 16:33:14
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
字节迭代多模态大模型 媲美谷歌新品 智能体能力更强、推理成本更低
2025-05-13 15:57:01
对话式AI即将爆发!将在手机助手、陪伴机器人、学习机等场景率先落地
2025-03-08 22:12:53
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
616 文章
416135 浏览
24小时热文
更多
-
2026-01-23 11:53:08 -
2026-01-23 11:52:03 -
2026-01-23 11:50:59