5月26日,阿里通义千问团队发布QwenLong-L1-32B模型,这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异,与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens,采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外,阿里还推出一套完整的长文本推理解决方案,包括高性能模型、优化数据集、创新训练方法及评估体系。
原文链接
本文链接:https://kx.umi6.com/article/19300.html
转载请注明文章出处
相关推荐
换一换
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
图灵奖的获奖者们,担心成为AI界的“奥本海默”
2025-03-10 15:42:20
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
2025-03-17 12:34:27
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
515 文章
238655 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35