QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

2025-05-27 14:51:28

月光编码师

发布在

快讯

阅读：415

5月26日，阿里通义千问团队发布QwenLong-L1-32B模型，这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异，与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens，采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外，阿里还推出一套完整的长文本推理解决方案，包括高性能模型、优化数据集、创新训练方法及评估体系。

原文链接

本文链接：https://kx.umi6.com/article/19300.html

转载请注明文章出处

QwenLong-L1-32B