标题:性能提升84%-166%,L-Zero通过强化学习实现大模型自主进化 | 已开源
招商局狮子山人工智能实验室最新研究提出了一种基于可验证奖励的强化学习(RLVR)的新方法,使大语言模型具备自主探索、验证与记忆的能力,真正实现“自学”!
当前LLM智能体(Agent)高度依赖提示词工程和复杂规则,难以演化出真正的智能行为。为此,研究团队构建了端到端训练框架——L0系统,包含两个关键层面:
-
结构化智能体架构NB-Agent
受“代码即行动”启发,NB-Agent采用“Think-Code-Observe”循环机制,将推理逻辑转化为Python代码,并在Jupyter Kernel中执行。为解决长文本处理难题,研究者设计了一个Notepad类模块,作为结构化外部记忆空间,让模型能主动存储并调用信息。 -
端到端强化学习流程
L0使用Agentic Policy Gradient算法,将策略梯度扩展至完整动作序列级。一个动作为一次完整的思考+代码段输出。训练引入多维度自动奖励函数,并采用轻量沙箱支持高并发训练。
实验结果显示,以Qwen2.5-7B为基础模型,在HotpotQA上,L0-RL训练后得分从22%提升至41%(提升84%),SimpleQA EM得分更是从30%飙升至80%(提升166%)。L0表现优于Search-R1和ZeroSearch等方法,展现出更强的泛化能力。
该项目已全面开源,包括框架、训练数据集、模型权重及示例代码,详见: - 论文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf - 代码库:https://github.com/cmriat/l0 - 模型:https://huggingface.co/cmriat/models - 数据集:https://huggingface.co/cmriat/datasets
.png)

-
2025-07-19 10:50:54
-
2025-07-19 09:50:33
-
2025-07-19 07:49:30