正文:2025年7月28日,通义千问团队首次公开强化学习新算法GSPO,其训练效率超越字节跳动的GRPO算法。GSPO通过定义序列级别的重要性比率并优化,解决了混合专家模型的训练稳定性问题,在同等算力下性能显著提升。实验显示,GSPO无需Routing Replay策略即可高效收敛,并在AIME’24等多个权威基准任务中表现出色。此外,GSPO裁剪token比例比GRPO高百倍,但仍保持更高效率,同时简化了RL基础设施需求。该算法已成功应用于Qwen3模型的大规模训练,释放了RL scaling潜能。
原文链接
本文链接:https://kx.umi6.com/article/22563.html
转载请注明文章出处
相关推荐
.png)
换一换
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
Qwen首次公开强化学习核心算法,超越字节GRPO
2025-07-28 15:17:21
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
2025-03-22 17:26:13
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
全球掀起DeepSeek复现狂潮,硅谷巨头神话崩塌
2025-01-26 16:15:22
图灵奖的获奖者们,担心成为AI界的“奥本海默”
2025-03-10 15:42:20
未来的科技历史,将如何发展?
2025-03-07 10:03:26
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
427 文章
73180 浏览
24小时热文
更多

-
2025-07-28 20:20:12
-
2025-07-28 20:19:25
-
2025-07-28 20:19:06