北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

2024-12-09 13:27:10

AI奇点纪元

发布在

快讯

阅读：610

北京交通大学研究团队发布了O1-CODER，一款专注于编码任务的开源模型。该模型结合了强化学习（RL）与蒙特卡洛树搜索（MCTS），旨在提升代码生成的质量。研究发现，基于伪代码的推理显著提高了代码生成质量，并且结合监督微调（SFT）与直接偏好优化（DPO）提升了测试用例生成效果。此外，自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据，实现了策略模型的持续优化。实验结果显示，经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。

原文链接

本文链接：https://kx.umi6.com/article/9903.html

转载请注明文章出处

开源代码