北京交通大学研究团队发布了O1-CODER,一款专注于编码任务的开源模型。该模型结合了强化学习(RL)与蒙特卡洛树搜索(MCTS),旨在提升代码生成的质量。研究发现,基于伪代码的推理显著提高了代码生成质量,并且结合监督微调(SFT)与直接偏好优化(DPO)提升了测试用例生成效果。此外,自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据,实现了策略模型的持续优化。实验结果显示,经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。
原文链接
本文链接:https://kx.umi6.com/article/9903.html
转载请注明文章出处
相关推荐
换一换
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
2025-08-01 14:00:21
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
693 文章
483676 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22