Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

2024-11-05 16:03:16

星际Code流浪者

发布在

科普

阅读：89

标题：Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

正文：复刻OpenAI o1推理大模型，开源界迎来最新进展：LLaMA版o1项目刚由上海AI Lab团队发布。该项目简介中明确提到，使用了蒙特卡洛树搜索、Self-Play强化学习、PPO算法及AlphaGo Zero的双重策略范式（先验策略+价值评估）。

2024年6月，在o1发布前，团队就开始探索蒙特卡洛树搜索以提升大模型的数学能力，积累了一定的关注。此次开源代码在开发者社区引起热议。OpenAI o1系列发布后，团队升级算法，专注于数学奥赛问题，作为OpenAI草莓项目的开源版本。

10月初，团队上传新论文，提出成对优化方法（不直接给出绝对分数，而是比较两个答案的相对优劣），以提升Llama模型在数学奥赛中的表现。在AIME2024基准测试中，原版LLaMA-3.1-8B-Instruct做对2题，优化后做对8题，超过除o1-preview和o1-mini外的其他商业闭源方案。

10月底，团队基于AlphaGo Zero架构，复刻OpenAI o1取得重大进展：模型在学习过程中通过与搜索树交互获得高级思维能力，且无需人工标注。不到一周时间，项目即开源。

目前开源内容包括预训练数据集、预训练模型及强化学习训练代码。OpenLongCoT-Pretrain数据集包含10万+条长思维链数据，每条数据包含完整数学问题推理过程、思考内容及评分结果。在此数据集继续预训练后，模型可读取和输出类似o1的长思维链过程。

预训练代码暂未发布，目前推荐使用LLaMaFactory代替。尽管项目名为LLaMA-O1，但预训练模型基于谷歌Gemma 2。预训练模型基础上，可继续进行强化学习训练，具体步骤为：使用蒙特卡洛树搜索进行自我对弈以生成经验，经验存储于优先经验回放缓冲区中，再从缓冲区采样批次数据进行训练，更新模型参数和经验优先级。

训练代码中使用的关键技术点包括：LoRA进行参数高效微调、PPO算法作为策略优化方法、GAE算法用于计算优势函数、优先经验回放提高训练效率。LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，相关信息较为神秘。

此外，O1-Journey是另一公开进展的o1复刻项目，由上海交大团队负责。团队在10月初发布第一份进展报告，介绍创新Journey Learning范式及首个成功整合搜索和学习的数学推理模型。团队主要由上交大大三、大四本科生及GAIR实验室一年级博士生组成，指导教师包括上交大副教授刘鹏飞等。

原文链接

本文链接：https://kx.umi6.com/article/8329.html

转载请注明文章出处

开源