北京交通大学研究团队发布了O1-CODER,一款专注于编码任务的开源模型。该模型结合了强化学习(RL)与蒙特卡洛树搜索(MCTS),旨在提升代码生成的质量。研究发现,基于伪代码的推理显著提高了代码生成质量,并且结合监督微调(SFT)与直接偏好优化(DPO)提升了测试用例生成效果。此外,自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据,实现了策略模型的持续优化。实验结果显示,经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。
原文链接
本文链接:https://kx.umi6.com/article/9903.html
转载请注明文章出处
相关推荐
换一换
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
2026-03-30 01:19:37
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
2025-09-26 11:24:15
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
722 文章
565976 浏览
24小时热文
更多
-
2026-04-25 20:32:08 -
2026-04-25 16:23:46 -
2026-04-25 16:20:40