标题:字节&MAP提出FR3E框架,强化学习助力LLM突破探索瓶颈
正文:
强化学习(RL)显著提升了大语言模型(LLM)在复杂任务中的表现,但传统RL框架下的探索难题依然存在。训练过程中,模型熵值迅速下降,推理路径趋于固化,“利用”远超“探索”,导致多样性生成能力受限,性能上限难以突破。
受OpenAI论文《First Return, Then Explore》启发,字节跳动、MAP与曼彻斯特大学联合提出了一种全新框架:First Return, Entropy-Eliciting Explore(FR3E)。该方法通过识别高不确定性关键token,重建LLM的探索机制,实现利用与探索的动态平衡,释放RL训练潜力。值得一提的是,《First Return, Then Explore》作者Jeff Clune已转发了这篇论文。
FR3E分为两个阶段:
第一阶段:First Return
模型对每条prompt进行多次rollout,自由探索解题路径,并采用拒绝采样策略过滤全正确样本,避免重复学习。对于部分正确的prompt,选取一条正确轨迹为基准;对于全错误的prompt,随机选取一条作为参考路径。随后,计算基准路径中每个token的生成熵,筛选出top-n高熵token作为关键决策点,划分轨迹并形成中间状态。
第二阶段:Entropy-Eliciting Explore
基于多状态prompt组,FR3E引入动态优势调制机制,精细调控学习信号。通过优势调制因子,缩放从上一个状态到当前状态的价值边际改善。若某部分对最终答案有正向影响,则降低其advantage以保留探索空间;反之,放大优势信号,激励模型积极突破推理瓶颈。
数据构建方面,团队采用低难度(DeepScaler)与高难度(SimpleRL)混合策略,既保障训练稳定性,又激发深层推理能力。
实验结果表明,FR3E在GSM8K、Math500等多个数学推理基准上显著优于基线GRPO++,尤其在Qwen2.5-Math-7B等模型上,成功延缓熵值衰减,提升长程推理稳定性。统计显示,FR3E大幅增加“全正确”轨迹数量,降低“全错误”比例,实现了从“部分成功”到“全面突破”的跃迁。
FR3E通过“先返回、再探索”设计,结合高熵锚点识别与动态优势调制,有效解决了LLM探索不足的问题,为未来大模型强化学习提供了新范式参考。
论文地址:https://arxiv.org/pdf/2507.07017
.png)

-
2025-08-11 16:09:35
-
2025-08-11 16:09:01
-
2025-08-11 16:08:28