近日,贾佳亚团队与多所高校合作推出新基准测试法MR-Ben,让大模型从“答题者”变为“阅卷老师”,专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目,评估模型对复杂问题推理的理解,而非仅依赖选择题或填空题。评测结果显示,GPT4-Turbo在MR-Ben测试中表现出色,但得分仍低于50分,显示出模型仍有提升空间。此外,研究发现小模型在低资源场景下也能超越部分大模型,且生成-反思策略对部分模型效果不明显。MR-Ben现已开源,开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。
原文链接
本文链接:https://kx.umi6.com/article/3570.html
转载请注明文章出处
相关推荐
换一换
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
AI帮我读论文,哪家强?
2025-01-03 15:50:44
OpenAI:推出用户年龄预测功能 以保护未成年用户
2026-01-21 15:17:45
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
Node.js之父:手写代码已死
2026-01-22 14:57:11
34GB大礼包 AMD显卡AI生产力来了:ComfyUI等5大软件一键部署
2026-01-22 23:17:29
文心 App 要做社交了?百度内部人士:没有考虑取代微信
2026-01-21 16:18:23
广东:推广邮政快递末端智能收派服务 推动无人车、无人机与智能快件箱协同配送
2026-01-21 17:22:35
中信证券:建议当前核心围绕先进封装和存储封装环节进行布局
2026-01-23 08:40:41
大学开始用AI招生了
2026-01-22 15:58:41
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
2026-01-22 20:08:53
广东:保障算力算法与网络供给 鼓励在重点路段、桥隧、港口及枢纽场站部署边缘计算节点
2026-01-21 16:20:44
747 文章
481239 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03