北京交通大学研究团队发布了O1-CODER,一款专注于编码任务的开源模型。该模型结合了强化学习(RL)与蒙特卡洛树搜索(MCTS),旨在提升代码生成的质量。研究发现,基于伪代码的推理显著提高了代码生成质量,并且结合监督微调(SFT)与直接偏好优化(DPO)提升了测试用例生成效果。此外,自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据,实现了策略模型的持续优化。实验结果显示,经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。
原文链接
本文链接:https://kx.umi6.com/article/9903.html
转载请注明文章出处
相关推荐
换一换
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
2025-08-01 14:00:21
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
我不给人做产品,给Agent做
2025-06-30 08:39:41
615 文章
354878 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52