近日,贾佳亚团队与多所高校合作推出新基准测试法MR-Ben,让大模型从“答题者”变为“阅卷老师”,专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目,评估模型对复杂问题推理的理解,而非仅依赖选择题或填空题。评测结果显示,GPT4-Turbo在MR-Ben测试中表现出色,但得分仍低于50分,显示出模型仍有提升空间。此外,研究发现小模型在低资源场景下也能超越部分大模型,且生成-反思策略对部分模型效果不明显。MR-Ben现已开源,开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。
原文链接
本文链接:https://kx.umi6.com/article/3570.html
转载请注明文章出处
相关推荐
换一换
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
AI帮我读论文,哪家强?
2025-01-03 15:50:44
SEMI:预计2025年全球半导体销售额超7000亿美元 2030年目标突破1万亿美元
2025-10-24 17:47:14
荣耀推出 AI Connect 平台,发布八大 AI 场景化生态解决方案
2025-10-23 17:12:06
95后小伙手搓AI眼镜:盲道、红绿灯都可认出 成本仅百元
2025-10-24 12:39:22
工信部王鹏:将大力推进“5G+工业互联网”512工程升级版实施方案
2025-10-24 14:42:43
阿里夸克AI眼镜24日开启预售 3699元起
2025-10-23 19:13:38
OpenAI 视频生成应用 Sora 更新在即:编辑器、安卓版 App、社交功能……
2025-10-24 09:32:35
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
Unity中国发行业务总收入破千万元 月增长率保持在30%-40%
2025-10-25 15:32:41
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
存储芯片领域又冲出一家IPO
2025-10-24 18:47:13
658 文章
310159 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54