阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM,涵盖72B和7B两种尺寸,性能超越同类开源模型。尤其在7B小尺寸下,其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench,填补了大模型推理过程错误评估的空白。
当前大模型推理过程中常出现逻辑错误或编造合理步骤的问题,准确识别这些错误对提升模型推理能力和可信度至关重要。过程奖励模型(PRM)通过评估每一步行为来优化推理策略,显著提升模型性能。通义团队采用蒙特卡洛估计与大模型判断结合的方法,提升了数据利用率和评测性能。
在多个数学基准测试中,Qwen2.5-Math-PRM表现出色,尤其是在7B版本中超越了同尺寸的开源模型,并且72B版本整体性能领先。此外,通义团队发布了ProcessBench,这是一个包含3400个数学问题的评估标准,涵盖奥赛难度题目,用于评估模型识别错误步骤的能力。该标准已开源,进一步验证了PRM的有效性,为未来推理过程监督技术的发展提供了新思路。
原文链接
本文链接:https://kx.umi6.com/article/11769.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里云通义开源首个推理步骤评估标准,探索AI推理模型新路径
2025-01-16 15:55:16
阿里云通义发布首个多模态推理模型QVQ
2024-12-25 13:05:41
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
华为正式发布HarmonyOS 6,10月22日开启公测
2025-10-22 18:49:40
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
2025-10-23 15:07:10
东软集团新增AI相关业务
2025-10-23 11:03:14
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
2025-10-23 10:01:08
通用汽车放大招:谷歌AI助手明年上车+高级智驾将解放手眼
2025-10-23 01:55:15
讯兔科技完成超1亿元Pre-A轮融资,红杉中国、高瓴创投领投
2025-10-22 16:48:05
OpenAI掌舵人三年演讲梳理:一文读懂Altman
2025-10-22 18:50:58
通义千问Qwen3-VL家族新增两个Dense模型尺寸
2025-10-22 17:51:24
英伟达向左,寒武纪向右
2025-10-23 07:58:12
545 文章
266802 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07