综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
以下是原文
正文:香港中文大学MMLab推出MME-CoT基准,用于评估大型语言模型的视觉推理能力。MME-CoT涵盖了数学、科学、逻辑等多个领域,并引入了严格的评估框架。实验结果显示,Kimi k1.5在CoT质量上表现最优,而o3-mini在鲁棒性和效率方面更胜一筹。研究还发现,长CoT不一定涵盖关键步骤,模型参数量越大,推理能力越强。MME-CoT为评估LMM的推理能力提供了系统化基准,推动了该领域的发展。
原文链接
加载更多
暂无内容