1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

无需数据标注!测试时强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅达159%。

TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案;第二步采用多数投票法选出伪标签;第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量,并结合GRPO算法及技术如重要性采样和蒙特卡洛估计,确保高效稳定。

实验显示,TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外,强化学习能有效纠正伪标签错误,即便初期标签准确率低,奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现,还能迁移至未参与训练的任务。

研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成,他们分别师从周伯文和刘知远。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/17684.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
人类击败OpenAI守住编程冠军
2025-07-18 05:33:14
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
Meta称不会签署欧盟最终版《通用人工智能行为准则》 批其“过度干预”
2025-07-18 20:45:41
24小时热文
更多
扫一扫体验小程序