阅卷式评估 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

专治大模型“刷题”，贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

近日，贾佳亚团队与多所高校合作推出新基准测试法MR-Ben，让大模型从“答题者”变为“阅卷老师”，专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目，评估模型对复杂问题推理的理解，而非仅依赖选择题或填空题。评测结果显示，GPT4-Turbo在MR-Ben测试中表现出色，但得分仍低于50分，显示出模型仍有提升空间。此外，研究发现小模型在低资源场景下也能超越部分大模型，且生成-反思策略对部分模型效果不明显。MR-Ben现已开源，开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。

原文链接