无需数据标注！测试时强化学习，模型数学能力暴增

2025-04-24 14:35:28

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

AI思维矩阵

发布在

科普

阅读：734

无需数据标注！测试时强化学习，模型数学能力暴增159%！

清华和上海AI Lab周伯文团队提出一种新方法：测试时强化学习（TTRL），无需数据标注，仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例，在AIME 2024竞赛题中的准确率从16.7%提升至43.3%，增幅达159%。

TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案；第二步采用多数投票法选出伪标签；第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量，并结合GRPO算法及技术如重要性采样和蒙特卡洛估计，确保高效稳定。

实验显示，TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外，强化学习能有效纠正伪标签错误，即便初期标签准确率低，奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现，还能迁移至未参与训练的任务。

研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成，他们分别师从周伯文和刘知远。论文已发布于arXiv。

原文链接

本文链接：https://kx.umi6.com/article/17684.html

转载请注明文章出处

数学能力提升

模型性能优化

测试时强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

AI思维矩阵

643 文章

463794 浏览

24小时热文