无需数据标注!测试时强化学习,模型数学能力暴增159%!
清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅达159%。
TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案;第二步采用多数投票法选出伪标签;第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量,并结合GRPO算法及技术如重要性采样和蒙特卡洛估计,确保高效稳定。
实验显示,TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外,强化学习能有效纠正伪标签错误,即便初期标签准确率低,奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现,还能迁移至未参与训练的任务。
研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成,他们分别师从周伯文和刘知远。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/17684.html
转载请注明文章出处
相关推荐
换一换
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
2025-04-24 14:35:28
贾佳亚团队新作:10k数据让大模型数学能力超GPT-4
2024-07-06 03:20:54
火山引擎上线豆包视频生成模型 1.0profast:5 秒 720P 内容仅需 10 秒完成
2025-10-27 16:08:48
AI的尽头是电力?
2025-10-27 17:08:04
比尔盖茨女儿也AI创业了
2025-10-28 10:44:07
商务部:中国与东盟同意暂免电子传输海关关税
2025-10-28 10:54:14
黄仁勋将在GTC华盛顿特区峰会发布主题演讲
2025-10-27 15:09:17
研究称 AI 模型或将形成自己的“生存驱动力”,避免被人类关闭命运
2025-10-27 08:48:45
巴林主权基金与SandboxAQ签署协议 借助人工智能加速药物研发
2025-10-27 17:10:01
零一万物高管新阵容亮相,李开复加码布局ToB 2.0
2025-10-27 17:06:51
国际研究:AI 助手常歪曲新闻内容,45% 回答存重大问题
2025-10-27 09:52:07
蚂蚁集团入股AI硬件研发商艾德未来智能
2025-10-27 10:59:45
比尔盖茨女儿也AI创业了!时尚电商,刚被塞了800万美元投资
2025-10-27 18:10:21
524 文章
253316 浏览
24小时热文
更多
-
2025-10-28 10:54:14 -
2025-10-28 10:53:09 -
2025-10-28 10:51:59