1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月26日,阿里通义千问团队发布QwenLong-L1-32B模型,这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异,与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens,采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外,阿里还推出一套完整的长文本推理解决方案,包括高性能模型、优化数据集、创新训练方法及评估体系。

原文链接
本文链接:https://kx.umi6.com/article/19300.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图
2025-03-24 11:54:11
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
2025-03-22 17:26:13
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
24小时热文
更多
扫一扫体验小程序