近日,贾佳亚团队与多所高校合作推出新基准测试法MR-Ben,让大模型从“答题者”变为“阅卷老师”,专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目,评估模型对复杂问题推理的理解,而非仅依赖选择题或填空题。评测结果显示,GPT4-Turbo在MR-Ben测试中表现出色,但得分仍低于50分,显示出模型仍有提升空间。此外,研究发现小模型在低资源场景下也能超越部分大模型,且生成-反思策略对部分模型效果不明显。MR-Ben现已开源,开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。
原文链接
本文链接:https://kx.umi6.com/article/3570.html
转载请注明文章出处
相关推荐
换一换
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
AI帮我读论文,哪家强?
2025-01-03 15:50:44
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
2026-03-09 12:34:15
文远知行与吉利远程深化战略合作,2026年交付2000台前装量产Robotaxi GXR
2026-03-09 13:44:22
高盛最新报告:维持对中国股市“增持”评级
2026-03-10 11:10:02
全国人大代表关注“养龙虾” 提醒服务平台履行安全责任
2026-03-10 11:08:54
抖音电商打击AI虚假营销:处置仿冒李亚鹏、王丽云等名人侵权内容超16万条
2026-03-09 19:06:14
脉脉:AI岗位量暴涨12倍 平均月薪超6万元领跑春招市场
2026-03-09 19:05:07
“办事”成全球AI新焦点:谷歌OpenAI相继投入 千问再加码
2026-03-06 18:25:27
AI出错为何不用承担责任!最高法厘清法律责任边界
2026-03-09 18:02:29
三星:考虑与多家AI公司建立合作 押注“多AI模型”手机战略
2026-03-09 20:09:26
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
788 文章
548491 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43