1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
近日,贾佳亚团队与多所高校合作推出新基准测试法MR-Ben,让大模型从“答题者”变为“阅卷老师”,专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目,评估模型对复杂问题推理的理解,而非仅依赖选择题或填空题。评测结果显示,GPT4-Turbo在MR-Ben测试中表现出色,但得分仍低于50分,显示出模型仍有提升空间。此外,研究发现小模型在低资源场景下也能超越部分大模型,且生成-反思策略对部分模型效果不明显。MR-Ben现已开源,开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。
阿达旻
07-18 17:06:23
MR-Ben
大模型评测
阅卷式评估
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序