阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM,涵盖72B和7B两种尺寸,性能超越同类开源模型。尤其在7B小尺寸下,其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench,填补了大模型推理过程错误评估的空白。
当前大模型推理过程中常出现逻辑错误或编造合理步骤的问题,准确识别这些错误对提升模型推理能力和可信度至关重要。过程奖励模型(PRM)通过评估每一步行为来优化推理策略,显著提升模型性能。通义团队采用蒙特卡洛估计与大模型判断结合的方法,提升了数据利用率和评测性能。
在多个数学基准测试中,Qwen2.5-Math-PRM表现出色,尤其是在7B版本中超越了同尺寸的开源模型,并且72B版本整体性能领先。此外,通义团队发布了ProcessBench,这是一个包含3400个数学问题的评估标准,涵盖奥赛难度题目,用于评估模型识别错误步骤的能力。该标准已开源,进一步验证了PRM的有效性,为未来推理过程监督技术的发展提供了新思路。
原文链接
本文链接:https://kx.umi6.com/article/11769.html
转载请注明文章出处
相关推荐
.png)
换一换
融资飙涨背后,Agent赛道的投资逻辑正在重构
2025-07-21 10:15:41
OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热
2025-07-20 15:09:31
工信部:加快实施“人工智能+”行动 推动大模型在制造业重点行业落地部署
2025-07-18 16:44:49
431 文章
69001 浏览
24小时热文
更多

-
2025-07-21 12:18:20
-
2025-07-21 12:17:10
-
2025-07-21 11:21:54