1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

无需数据标注!测试时强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅达159%。

TTRL分为生成、投票、强化三大步骤。第一步通过增加采样次数生成多样化答案;第二步采用多数投票法选出伪标签;第三步利用强化学习优化模型策略。此过程引入Maj@N参数平衡伪标签质量和数量,并结合GRPO算法及技术如重要性采样和蒙特卡洛估计,确保高效稳定。

实验显示,TTRL在AIME 2024、AMC和MATH-500数据集上使Qwen2.5-Math-7B平均性能提升了84.1%。此外,强化学习能有效纠正伪标签错误,即便初期标签准确率低,奖励准确率仍可保持高位。TTRL不仅提升了目标数据集的表现,还能迁移至未参与训练的任务。

研究由清华大学博士生张开颜与上海AI Lab崔淦渠领导完成,他们分别师从周伯文和刘知远。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/17684.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
2025-04-24 14:35:28
贾佳亚团队新作:10k数据让大模型数学能力超GPT-4
2024-07-06 03:20:54
OpenAI 为动画长片提供工具和资源支持,力图证明 AI“拍电影”比好莱坞更快更便宜
2025-09-08 17:03:11
饭圈女孩,冲在抵制AI第一线
2025-09-09 07:08:35
江苏省通信管理局:适度超前规划建设信息通信基础设施 加快推进万兆光网试点
2025-09-09 14:25:18
博主的边界没了
2025-09-09 08:09:10
百度股价创今年新高!李彦宏700万元重奖技术团队
2025-09-08 20:03:26
AI终局之战:美国目前赢了技术,但中国会赢下未来?
2025-09-09 16:19:36
Meta超级智能实验室首篇论文:重新定义RAG
2025-09-08 17:00:44
风起“具身智能”,2025科技创变者大会锚定产业化新征程
2025-09-09 16:17:19
荣耀与阿里巴巴签署AI战略合作协议
2025-09-09 19:22:21
再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测
2025-09-09 17:17:56
Anthropic的版权诉讼案陷入僵局 法官对15亿美元和解协议仍有质疑
2025-09-09 17:19:03
24小时热文
更多
扫一扫体验小程序