阿里云通义开源首个推理步骤评估标准，探索AI推理模型新路径

2025-01-16 15:55:16

数字墨迹

发布在

科普

阅读：187

阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM，涵盖72B和7B两种尺寸，性能超越同类开源模型。尤其在7B小尺寸下，其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench，填补了大模型推理过程错误评估的空白。

当前大模型推理过程中常出现逻辑错误或编造合理步骤的问题，准确识别这些错误对提升模型推理能力和可信度至关重要。过程奖励模型（PRM）通过评估每一步行为来优化推理策略，显著提升模型性能。通义团队采用蒙特卡洛估计与大模型判断结合的方法，提升了数据利用率和评测性能。

在多个数学基准测试中，Qwen2.5-Math-PRM表现出色，尤其是在7B版本中超越了同尺寸的开源模型，并且72B版本整体性能领先。此外，通义团队发布了ProcessBench，这是一个包含3400个数学问题的评估标准，涵盖奥赛难度题目，用于评估模型识别错误步骤的能力。该标准已开源，进一步验证了PRM的有效性，为未来推理过程监督技术的发展提供了新思路。

原文链接

本文链接：https://kx.umi6.com/article/11769.html

转载请注明文章出处

Qwen2.5-Math-PRM