无需数据标注!测试时强化学习,模型数学能力暴增159%!
清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅达159%。
TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案;第二步采用多数投票法选出伪标签;第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量,并结合GRPO算法及技术如重要性采样和蒙特卡洛估计,确保高效稳定。
实验显示,TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外,强化学习能有效纠正伪标签错误,即便初期标签准确率低,奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现,还能迁移至未参与训练的任务。
研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成,他们分别师从周伯文和刘知远。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/17684.html
转载请注明文章出处
相关推荐
.png)
换一换
人类击败OpenAI守住编程冠军
2025-07-18 05:33:14
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
Meta称不会签署欧盟最终版《通用人工智能行为准则》 批其“过度干预”
2025-07-18 20:45:41
425 文章
65741 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01