无需数据标注!测试时强化学习,模型数学能力暴增159%!
清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅达159%。
TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案;第二步采用多数投票法选出伪标签;第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量,并结合GRPO算法及技术如重要性采样和蒙特卡洛估计,确保高效稳定。
实验显示,TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外,强化学习能有效纠正伪标签错误,即便初期标签准确率低,奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现,还能迁移至未参与训练的任务。
研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成,他们分别师从周伯文和刘知远。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/17684.html
转载请注明文章出处
相关推荐
换一换
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
2025-04-24 14:35:28
贾佳亚团队新作:10k数据让大模型数学能力超GPT-4
2024-07-06 03:20:54
AI浏览器何时才能安全?
2026-03-07 00:49:29
“龙虾” 炸翻AI圈!雷军下场 鹅厂排长队
2026-03-07 00:48:20
国家发展改革委主任:“十五五”末人工智能相关产业规模将增长到10万亿元以上
2026-03-06 16:15:23
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
北京市新增1款已完成备案生成式人工智能服务
2026-03-10 10:03:26
中国信通院:截至2025年6月我国计算设备智能算力规模达到782 EFlops 同比增长96%
2026-03-06 14:07:35
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
中信证券:主动补库周期来临 特种布基本面将加速赶超
2026-03-10 09:01:12
深圳龙岗拟出台措施 支持OpenClaw&OPC发展
2026-03-08 17:26:26
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
郑栅洁:从未来发展考虑 将推进人工智能超大规模智算集群、卫星互联网、可控核聚变等一系列重大工程和项目
2026-03-06 17:23:58
643 文章
463794 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22