1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:性能提升84%-166%,L-Zero通过强化学习实现大模型自主进化 | 已开源

招商局狮子山人工智能实验室最新研究提出了一种基于可验证奖励的强化学习(RLVR)的新方法,使大语言模型具备自主探索、验证与记忆的能力,真正实现“自学”!

当前LLM智能体(Agent)高度依赖提示词工程和复杂规则,难以演化出真正的智能行为。为此,研究团队构建了端到端训练框架——L0系统,包含两个关键层面:

  1. 结构化智能体架构NB-Agent
    受“代码即行动”启发,NB-Agent采用“Think-Code-Observe”循环机制,将推理逻辑转化为Python代码,并在Jupyter Kernel中执行。为解决长文本处理难题,研究者设计了一个Notepad类模块,作为结构化外部记忆空间,让模型能主动存储并调用信息。

  2. 端到端强化学习流程
    L0使用Agentic Policy Gradient算法,将策略梯度扩展至完整动作序列级。一个动作为一次完整的思考+代码段输出。训练引入多维度自动奖励函数,并采用轻量沙箱支持高并发训练。

实验结果显示,以Qwen2.5-7B为基础模型,在HotpotQA上,L0-RL训练后得分从22%提升至41%(提升84%),SimpleQA EM得分更是从30%飙升至80%(提升166%)。L0表现优于Search-R1和ZeroSearch等方法,展现出更强的泛化能力。

该项目已全面开源,包括框架、训练数据集、模型权重及示例代码,详见: - 论文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf - 代码库:https://github.com/cmriat/l0 - 模型:https://huggingface.co/cmriat/models - 数据集:https://huggingface.co/cmriat/datasets

原文链接
本文链接:https://kx.umi6.com/article/21021.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就
2025-02-12 19:37:54
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2025-02-06 09:27:16
全球掀起DeepSeek复现狂潮,硅谷巨头神话崩塌
2025-01-26 16:15:22
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
图灵奖的获奖者们,担心成为AI界的“奥本海默”
2025-03-10 15:42:20
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
OpenAI新模型被曝秘密训练中,o4会是什么样?
2025-06-10 18:54:49
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
24小时热文
更多
扫一扫体验小程序