QwenLong-L1-32B - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

5月26日，阿里通义千问团队发布QwenLong-L1-32B模型，这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异，与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens，采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外，阿里还推出一套完整的长文本推理解决方案，包括高性能模型、优化数据集、创新训练方法及评估体系。

原文链接