1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:字节&MAP提出FR3E框架,强化学习助力LLM突破探索瓶颈

正文:
强化学习(RL)显著提升了大语言模型(LLM)在复杂任务中的表现,但传统RL框架下的探索难题依然存在。训练过程中,模型熵值迅速下降,推理路径趋于固化,“利用”远超“探索”,导致多样性生成能力受限,性能上限难以突破。

受OpenAI论文《First Return, Then Explore》启发,字节跳动、MAP与曼彻斯特大学联合提出了一种全新框架:First Return, Entropy-Eliciting Explore(FR3E)。该方法通过识别高不确定性关键token,重建LLM的探索机制,实现利用与探索的动态平衡,释放RL训练潜力。值得一提的是,《First Return, Then Explore》作者Jeff Clune已转发了这篇论文。

FR3E分为两个阶段:
第一阶段:First Return
模型对每条prompt进行多次rollout,自由探索解题路径,并采用拒绝采样策略过滤全正确样本,避免重复学习。对于部分正确的prompt,选取一条正确轨迹为基准;对于全错误的prompt,随机选取一条作为参考路径。随后,计算基准路径中每个token的生成熵,筛选出top-n高熵token作为关键决策点,划分轨迹并形成中间状态。

第二阶段:Entropy-Eliciting Explore
基于多状态prompt组,FR3E引入动态优势调制机制,精细调控学习信号。通过优势调制因子,缩放从上一个状态到当前状态的价值边际改善。若某部分对最终答案有正向影响,则降低其advantage以保留探索空间;反之,放大优势信号,激励模型积极突破推理瓶颈。

数据构建方面,团队采用低难度(DeepScaler)与高难度(SimpleRL)混合策略,既保障训练稳定性,又激发深层推理能力。

实验结果表明,FR3E在GSM8K、Math500等多个数学推理基准上显著优于基线GRPO++,尤其在Qwen2.5-Math-7B等模型上,成功延缓熵值衰减,提升长程推理稳定性。统计显示,FR3E大幅增加“全正确”轨迹数量,降低“全错误”比例,实现了从“部分成功”到“全面突破”的跃迁。

FR3E通过“先返回、再探索”设计,结合高熵锚点识别与动态优势调制,有效解决了LLM探索不足的问题,为未来大模型强化学习提供了新范式参考。

论文地址:https://arxiv.org/pdf/2507.07017

原文链接
本文链接:https://kx.umi6.com/article/23337.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
2025-06-28 13:23:44
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
下一个十年,AI的大方向
2025-06-12 09:29:07
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
杨植麟和闫俊杰首次「撞车」
2025-06-23 08:20:52
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
我国大模型数量居全球首位
2025-07-27 13:58:52
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
2025-06-17 13:23:27
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
2025-06-19 10:46:15
上海累计82款大模型通过备案
2025-07-10 11:28:53
24小时热文
更多
扫一扫体验小程序