1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

正文: 复刻OpenAI o1推理大模型,开源界迎来最新进展:LLaMA版o1项目刚由上海AI Lab团队发布。该项目简介中明确提到,使用了蒙特卡洛树搜索、Self-Play强化学习、PPO算法及AlphaGo Zero的双重策略范式(先验策略+价值评估)。

2024年6月,在o1发布前,团队就开始探索蒙特卡洛树搜索以提升大模型的数学能力,积累了一定的关注。此次开源代码在开发者社区引起热议。OpenAI o1系列发布后,团队升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。

10月初,团队上传新论文,提出成对优化方法(不直接给出绝对分数,而是比较两个答案的相对优劣),以提升Llama模型在数学奥赛中的表现。在AIME2024基准测试中,原版LLaMA-3.1-8B-Instruct做对2题,优化后做对8题,超过除o1-preview和o1-mini外的其他商业闭源方案。

10月底,团队基于AlphaGo Zero架构,复刻OpenAI o1取得重大进展:模型在学习过程中通过与搜索树交互获得高级思维能力,且无需人工标注。不到一周时间,项目即开源。

目前开源内容包括预训练数据集、预训练模型及强化学习训练代码。OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含完整数学问题推理过程、思考内容及评分结果。在此数据集继续预训练后,模型可读取和输出类似o1的长思维链过程。

预训练代码暂未发布,目前推荐使用LLaMaFactory代替。尽管项目名为LLaMA-O1,但预训练模型基于谷歌Gemma 2。预训练模型基础上,可继续进行强化学习训练,具体步骤为:使用蒙特卡洛树搜索进行自我对弈以生成经验,经验存储于优先经验回放缓冲区中,再从缓冲区采样批次数据进行训练,更新模型参数和经验优先级。

训练代码中使用的关键技术点包括:LoRA进行参数高效微调、PPO算法作为策略优化方法、GAE算法用于计算优势函数、优先经验回放提高训练效率。LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下,相关信息较为神秘。

此外,O1-Journey是另一公开进展的o1复刻项目,由上海交大团队负责。团队在10月初发布第一份进展报告,介绍创新Journey Learning范式及首个成功整合搜索和学习的数学推理模型。团队主要由上交大大三、大四本科生及GAIR实验室一年级博士生组成,指导教师包括上交大副教授刘鹏飞等。

原文链接
本文链接:https://kx.umi6.com/article/8329.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源版Genie3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
2025-08-19 10:59:13
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
2025-09-26 11:24:15
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
开源Qwen凌晨暴击闭源Claude!刷新AI编程SOTA,支持1M上下文
2025-07-23 09:45:56
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
腾讯混元世界模型 1.1 版本发布并开源:单卡即可部署,秒级创造 3D 世界
2025-10-22 18:50:23
Hugging Face 桌面机器人 Reachy Mini 开订:长相呆萌,支持超 170 万个 AI 模型
2025-07-09 16:06:14
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
Qwen首次公开强化学习核心算法,超越字节GRPO
2025-07-28 15:17:21
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
24小时热文
更多
扫一扫体验小程序