阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM,涵盖72B和7B两种尺寸,性能超越同类开源模型。尤其在7B小尺寸下,其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench,填补了大模型推理过程错误评估的空白。
当前大模型推理过程中常出现逻辑错误或编造合理步骤的问题,准确识别这些错误对提升模型推理能力和可信度至关重要。过程奖励模型(PRM)通过评估每一步行为来优化推理策略,显著提升模型性能。通义团队采用蒙特卡洛估计与大模型判断结合的方法,提升了数据利用率和评测性能。
在多个数学基准测试中,Qwen2.5-Math-PRM表现出色,尤其是在7B版本中超越了同尺寸的开源模型,并且72B版本整体性能领先。此外,通义团队发布了ProcessBench,这是一个包含3400个数学问题的评估标准,涵盖奥赛难度题目,用于评估模型识别错误步骤的能力。该标准已开源,进一步验证了PRM的有效性,为未来推理过程监督技术的发展提供了新思路。
原文链接
本文链接:https://kx.umi6.com/article/11769.html
转载请注明文章出处
相关推荐
换一换
阿里云通义发布首个多模态推理模型QVQ
2024-12-25 13:05:41
阿里云通义开源首个推理步骤评估标准,探索AI推理模型新路径
2025-01-16 15:55:16
2026全球开发者先锋大会将于3月27日至29日在上海举办
2026-03-06 21:38:24
“龙虾” 炸翻AI圈!雷军下场 鹅厂排长队
2026-03-07 00:48:20
甲骨文史上最大裁员:AI未取代人力 资金转向芯片、数据中心投资
2026-03-09 18:00:21
中信证券:AI驱动保险发展,料将显著创造增量
2026-03-10 08:57:43
英伟达投资的数据中心公司Nscale完成20亿美元融资 估值达146亿美元
2026-03-09 18:02:36
全国人大代表张帆:建议研究出台加强工业数据集建设的财税支持政策
2026-03-06 19:29:19
文远知行与吉利远程深化战略合作,2026年交付2000台前装量产Robotaxi GXR
2026-03-09 13:44:22
麦肯锡:AI不是对手而是工具 善用AI的毕业生就业更吃香
2026-03-06 23:43:55
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤
2026-03-09 14:44:41
668 文章
476847 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02