5月26日,阿里通义千问团队发布QwenLong-L1-32B模型,这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异,与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens,采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外,阿里还推出一套完整的长文本推理解决方案,包括高性能模型、优化数据集、创新训练方法及评估体系。
原文链接
本文链接:https://kx.umi6.com/article/19300.html
转载请注明文章出处
相关推荐
.png)
换一换
Kimi 发布视觉思考模型 k1:试题拍照给出答题思考全过程
2024-12-16 10:33:37
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预
2025-02-12 15:29:54
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
2025-03-17 12:34:27
UCL强化学习派:汪军与他的学生们
2025-02-27 19:41:38
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2025-02-06 09:27:16
464 文章
162198 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25