阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

2025-05-27 15:55:36

Journeyman

发布在

科普

阅读：268

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

推理大模型开启新方向，阿里推出长文本深度思考模型QwenLong-L1，位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异，超越OpenAI-o3-mini、Qwen3-235B-A22B等，与Claude-3.7-Sonnet-Thinking持平。

论文详细展示了金融文档推理案例，传统模型易被无关信息误导，而QwenLong-L1通过回溯和验证机制过滤干扰信息，整合关键数据。以“将优先票据发行成本与第一年利息支出合并计算总资本成本”为例，基础模型DeepSeek-R1-Distill-Qwen-14B因不相关时间信息误算利息，额外SFT版本虽改进但仍无法给出答案。相比之下，QwenLong-L1-14B通过自我反思和验证快速排除干扰，得出正确答案。

QwenLong-L1如何实现这一突破？团队提出渐进式上下文扩展，分两阶段训练。首先是预热监督微调，利用5.3K高质量三元组数据让模型掌握长文本理解与推理能力。接着是课程引导的分阶段强化学习，从短文本逐步过渡到长文本，同时引入难度感知回溯采样机制确保模型处理困难案例的能力。

强化学习训练中采用混合奖励函数，结合规则验证与LLM-as-a-Judge，兼顾准确性与灵活性。在多个基准测试中，QwenLong-L1-14B平均提升4.1分，32B版本达70.7分，超越多款竞品。团队还评估了Test-time Scaling性能，QwenLong-L1-14B表现优于DeepSeek-R1和OpenAI-o1-preview。

实验显示，SFT可带来显著提升，但RL在长文本上的效果有限，而在短文本上效果显著。团队认为，SFT经济实用，而RL是达到最佳性能的关键。通过分析推理行为发现，强化学习能有效增强信息定位、子目标设定、回溯和验证能力，而SFT仅停留在表面模式匹配。

原文链接

本文链接：https://kx.umi6.com/article/19304.html

转载请注明文章出处

渐进式强化学习