1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

推理大模型开启新方向,阿里推出长文本深度思考模型QwenLong-L1,位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异,超越OpenAI-o3-mini、Qwen3-235B-A22B等,与Claude-3.7-Sonnet-Thinking持平。

论文详细展示了金融文档推理案例,传统模型易被无关信息误导,而QwenLong-L1通过回溯和验证机制过滤干扰信息,整合关键数据。以“将优先票据发行成本与第一年利息支出合并计算总资本成本”为例,基础模型DeepSeek-R1-Distill-Qwen-14B因不相关时间信息误算利息,额外SFT版本虽改进但仍无法给出答案。相比之下,QwenLong-L1-14B通过自我反思和验证快速排除干扰,得出正确答案。

QwenLong-L1如何实现这一突破?团队提出渐进式上下文扩展,分两阶段训练。首先是预热监督微调,利用5.3K高质量三元组数据让模型掌握长文本理解与推理能力。接着是课程引导的分阶段强化学习,从短文本逐步过渡到长文本,同时引入难度感知回溯采样机制确保模型处理困难案例的能力。

强化学习训练中采用混合奖励函数,结合规则验证与LLM-as-a-Judge,兼顾准确性与灵活性。在多个基准测试中,QwenLong-L1-14B平均提升4.1分,32B版本达70.7分,超越多款竞品。团队还评估了Test-time Scaling性能,QwenLong-L1-14B表现优于DeepSeek-R1和OpenAI-o1-preview。

实验显示,SFT可带来显著提升,但RL在长文本上的效果有限,而在短文本上效果显著。团队认为,SFT经济实用,而RL是达到最佳性能的关键。通过分析推理行为发现,强化学习能有效增强信息定位、子目标设定、回溯和验证能力,而SFT仅停留在表面模式匹配。

原文链接
本文链接:https://kx.umi6.com/article/19304.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果AI为什么选择了阿里
2025-02-14 10:30:19
消息称阿里秘密启动“千问”项目,全面对标 ChatGPT
2025-11-13 15:05:16
阿里云拿下高奢品牌 LV 母公司五年长期合约,整合通义千问 AI 技术
2024-05-23 15:50:46
阿里宣布投入3800亿元建设云和AI硬件基础设施
2025-02-24 10:23:25
马云再次现身引热议!DeepSeek爆火,阿里巴巴能否借势AI?
2025-02-11 23:08:37
精准学获阿里2亿元战投 吴泳铭创办的VC曾加注天使轮
2024-09-20 21:33:08
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队
2025-10-11 09:17:58
消息指苹果抛弃DeepSeek,选择与阿里合作开发中国iPhone AI 功能
2025-02-12 00:10:01
国行版iPhone AI来了!百度、阿里技术支持但分工不同
2025-05-06 19:00:19
阿里全力进军AI to C市场 千问APP上线公测
2025-11-17 10:21:28
阿里云通义开源首个长文本新模型Qwen2.5-1M
2025-01-27 11:31:21
阿里CEO吴泳铭内网发帖:回归初心 重新创业
2025-05-09 09:50:05
阿里 Qwen Chat 平台上线“深度思考”功能:基于 QwQ-Max-Preview 推理模型,支持联网搜索
2025-02-25 11:54:04
24小时热文
更多
扫一扫体验小程序