字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

2025-08-11 10:59:04

E-Poet

发布在

科普

阅读：71

标题：字节&MAP提出FR3E框架，强化学习助力LLM突破探索瓶颈

正文：
强化学习（RL）显著提升了大语言模型（LLM）在复杂任务中的表现，但传统RL框架下的探索难题依然存在。训练过程中，模型熵值迅速下降，推理路径趋于固化，“利用”远超“探索”，导致多样性生成能力受限，性能上限难以突破。

受OpenAI论文《First Return, Then Explore》启发，字节跳动、MAP与曼彻斯特大学联合提出了一种全新框架：First Return, Entropy-Eliciting Explore（FR3E）。该方法通过识别高不确定性关键token，重建LLM的探索机制，实现利用与探索的动态平衡，释放RL训练潜力。值得一提的是，《First Return, Then Explore》作者Jeff Clune已转发了这篇论文。

FR3E分为两个阶段：
第一阶段：First Return
模型对每条prompt进行多次rollout，自由探索解题路径，并采用拒绝采样策略过滤全正确样本，避免重复学习。对于部分正确的prompt，选取一条正确轨迹为基准；对于全错误的prompt，随机选取一条作为参考路径。随后，计算基准路径中每个token的生成熵，筛选出top-n高熵token作为关键决策点，划分轨迹并形成中间状态。

第二阶段：Entropy-Eliciting Explore
基于多状态prompt组，FR3E引入动态优势调制机制，精细调控学习信号。通过优势调制因子，缩放从上一个状态到当前状态的价值边际改善。若某部分对最终答案有正向影响，则降低其advantage以保留探索空间；反之，放大优势信号，激励模型积极突破推理瓶颈。

数据构建方面，团队采用低难度（DeepScaler）与高难度（SimpleRL）混合策略，既保障训练稳定性，又激发深层推理能力。

实验结果表明，FR3E在GSM8K、Math500等多个数学推理基准上显著优于基线GRPO++，尤其在Qwen2.5-Math-7B等模型上，成功延缓熵值衰减，提升长程推理稳定性。统计显示，FR3E大幅增加“全正确”轨迹数量，降低“全错误”比例，实现了从“部分成功”到“全面突破”的跃迁。

FR3E通过“先返回、再探索”设计，结合高熵锚点识别与动态优势调制，有效解决了LLM探索不足的问题，为未来大模型强化学习提供了新范式参考。

论文地址：https://arxiv.org/pdf/2507.07017

原文链接

本文链接：https://kx.umi6.com/article/23337.html

转载请注明文章出处

大模型